vendredi 18 avril 2008

Une empreinte numérique pour traquer les contenus illicites

Les .gendarmerie utilise un super-moteur de recherche pour étudier en profondeur les sites illégaux.Des empreintes pour traquer les documents illicitesDocuments suspects trouvés sur Internet- ——..j=:_, ‘Texte Musique Vidéo ImagesUn moteur de recherche parcourt Internet à la recherche de pages illicites.Production dempreintesLes documents suspects (texte, photo, musique, vidéo...) sont automatiquement copiés. Grâce à différents algorithmes, le logiciel analyse leur contenu pour déterminer une empreinte spécifique à chaque fichier.‘I,Empreintes des documents trouvésBase de constats vérifiés1e logiciel Advestisearch peut analyser jusqu’à 100.000 pages Web par jour afin de dénicher des fichiers numériques susceptibles d’enfreindre la loi.Nous cherchons toujours des aiguilles dans une botte de foin, mais maintenant nous avons un détecteur de métaux » Pour cet enquêteur au service technique de recherches judiciaires et de documentation (STRJD) de la Gendarmerie nationale, un nouveau logiciel, Advestisearch, permet désormais de travailler plus vite et mieux.« Quelque 100.000 pages Web peuvent être analysées en une journée par ce programme », précise Michel Roux, directeur général d’Advestigo, l’éditeur de ce logiciel spécialisé dans la protection des actifs numériques. En quelques semaines, les gendarmes auraient déjà transmis une dizaine d’affaires à lajustice.Présenté fin mars lors de la deuxième édition du Forum international sur la cybercriminalité à Marcq-en-Baroeul (Nord), Advestisearch est utilisé depuis cet hiver par la gendarmerie pour dénicher différents contenus illicites trafic de points de permis, recettes de fabrication d’explosifs, blogs racistes... Ce programme est en quelque sorte un super-Google. D’où un prix qui varie, selon les configurations et les options, entre 60.000 et 150.000 euros.Analyse du contenuA la différence d’un moteur de recherche classique, qui se limite principalement à une approche par mots-clefs, Advestisearch effectue une analyse approfondie en s’intéressant à l’intégralité du contenu. C’est ce qu’onappelle le «Web sémantique ». Le logiciel est d’ailleurs utilisé par d’autres clients, parmi lesquels des maisons de disques, qui s’en servent pour surveiller les services d’échanges de fichier en «peerto-peer » et repérer les oeuvres piratées.D’abord, le logiciel cherche des similarités entre tous types de contenus, images, sons, textes, vidéos. Pour relever ce défi, la traque se déroule en deux temps. Advestisearch parcourt notamment des «newsgroups », desblogs et des forums, et analyse automatiquement leur contenu. Cette fouille minutieuse permet de repérer des sites qui ne sont pas référencés par les moteurs de recherche classiques, ou dont l’adresse n’apparaît pas de façon explicite dans les pages analysées (absence d’un lien URL avec http://www.nomdusite.com/ sur lequel l’internaute doit cliquer pour y accéder).Dès qu’une page Web suspecte est détectée, Advestisearch enregistre immédiatement son contenu et ses ramifications. Une précaution indispensable, car la durée de vie de ces sites obscurs est parfois très courte.Algorith mesLa seconde étape s’appuie sur la théraographie, qui consiste à calculer, grâce à différents algorithmes, une empreinte numérique propre à n’importe quel fichier. Il s’agit ensuite de faire des recherches de similarités et de comparer une image, une vidéo ou un texte. Lorsqu’un fichiercontient différents types de médias (par exemple audio et vidéo), chacun est analysé par un algorithme approprié.Peu importe aussi que le contenu repéré soit coupé ou modifié pour tenter d’échapper à la veille des gendarmes. Advestisearch est en principe capable de découvrir la supercherie et de reconstituer l’original qui sert de référent, ce dernier étant issu d’une banque de données fournie par l’utilisateur.En matière de cybercriminalité, la gendarmerie peut s’appuyer sur un certain nombre d’entre elles, notamment celle alimentée depuis 2003 par le Centre national d’analyse d’images pédopornographiques (Cnaip), riches de plus de 480.000 photographies de nature pédopornographique. Une collaboration entre les polices européennes serait d’ailleurs envisagée afin de créer des bases de données encore plus importantes.PHILIPPE RICHARDrProduction dempreintesfBase dempreintes de documentsComparateurLe logiciel compare les empreintes desdocuments trouvés sur Internet et cellesdes fichiers contenus dans la base de données.ç,—Interface utilisateurLLes documents à rechercher (fichiers protégés par copyright, mais aussi textes incitant à la haine raciale, images pédopornographiques...) sont eux aussi analysés, et leurs empreintes sont stockées dans une base de données.dé / Source AdvertigoQuand les empreintes de deux documents correspondent, le logiciel dresse un constatet alerte I utilisateur. ‘..

Aucun commentaire: