DarkBERT, un équivalent de ChatGPT entrainé avec les données du dark web

DarkBERT, un équivalent de ChatGPT entrainé avec les données du dark web DarkBERT, un équivalent de ChatGPT entrainé avec les données du dark web

DarkBERT, c'est le nom d'une intelligence artificielle spécialisée dans un domaine bien précis : le dark web. Sa particularité : elle apprend à partir de données disponibles sur le dark web, contrairement à d'autres IA comme ChatGPT.

Depuis plusieurs mois et l'explosion de ChatGPT aux yeux du grand public, les chatbots dopés à l'intelligence artificielle sont très à la mode. ChatGPT est loin d'être seul puisque l'on a aussi un chatbot dans Microsoft Bing et de son côté, Google, a lancé Bard.

Dans un style différent, il y a aussi DarkBERT : un chatbot mis au point par une équipe de chercheurs sud-coréens. S'il s'appelle DarkBERT, il y a deux raisons principales :

  • "Dark" car il est conçu pour effectuer de la recherche de données sur le dark web. Initialement, il a été formé à partir de données issues du dark web.
  • "BERT" car ce chatbot s'appuie sur l'architecture RoBERTa de chez Meta, qui s'appuie quant à elle sur sur BERT (Bidirectional Encoder Representations from Transformers). BERT est un modèle de langage de Google.

La face cachée d'Internet, c'est ce qui intéresse DarkBERT, contrairement aux autres chatbots que l'on connait tous, qui eux s'appuient sur les données du Web indexées sur les moteurs de recherche comme Google, Bing ou Qwant. Mais, pourquoi ?

Pour se rendre sur le dark web et former DarkBERT, les chercheurs ont utilisé Tor de manière à récolter des millions d'informations. Au total, il s'agit de 5,83 Go de texte brut que DarkBERT a pu utiliser pour son apprentissage initial. Par exemple, DarkBERT a pu lire des documents spécifiques aux marchés noirs, des messages échangés sur des forums, et lire le contenu de bases de données volées. Au préalable, et pour des raisons d'éthiques, les données collectées ont été triées dans le but de supprimer les données personnelles sensibles d'internautes.

Pour alimenter le modèle, les chercheurs ont aussi exclu les fichiers images et vidéos, notamment pour éviter le contenu pédopornographique. Alimenter un modèle via le dark web, ce n'est pas si simple puisque l'on trouve beaucoup de contenus sensibles.

Quel est l'objectif de DarkBERT ?

L'objectif de DarkBERT est de permettre aux autorités et aux enquêteurs de mieux appréhender le fonctionnement du dark web et des réseaux de cybercriminels. L'intelligence artificielle serait capable de détecter des menaces ou des informations précises sur la face cachée d'Internet.

Par exemple, si un nouveau ransomware est mis en ligne, le modèle pourra le détecter, l'analyser et le documenter, au même titre qu'il peut détecter la mise en ligne d'une nouvelle base de données issue d'une cyberattaque.

La prochaine étape pour les chercheurs sud-coréens, c'est de faire en sorte que DarkBERT analyse le dark web lui-même, de façon régulière et automatique, à la recherche de nouvelles menaces. Il est à noter aussi que DarkBERT n'est pas accessible au grand public.

Le rapport est disponible en téléchargement à partir de cette page en cliquant sur "PDF" en haut à droite.

 

source:https://www.it-connect.fr/darkbert-un-equivalent-de-chatgpt-entraine-avec-les-donnees-du-dark-web/

×
Stay Informed

When you subscribe to the blog, we will send you an e-mail when there are new updates on the site so you wouldn't miss them.

Les énergies renouvelables, meilleures opportunité...

Related Posts

 

Comments

No comments made yet. Be the first to submit a comment
Already Registered? Login Here
Guest
lundi 20 mai 2024
COM_PAYPLANS_LOGGER_CRON_START