DarkBERT : Un modèle de langage pour le côté obscur d'Internet
DarkBERT: A Language Model for the Dark Side of the Internet
May 15, 2023
Auteurs: Youngjin Jin, Eugene Jang, Jian Cui, Jin-Woo Chung, Yongjae Lee, Seungwon Shin
cs.AI
Résumé
Des recherches récentes ont suggéré qu'il existe des différences marquées entre le langage utilisé sur le Dark Web et celui du Surface Web. Étant donné que les études sur le Dark Web nécessitent couramment une analyse textuelle du domaine, des modèles de langage spécifiques au Dark Web pourraient offrir des perspectives précieuses aux chercheurs. Dans ce travail, nous présentons DarkBERT, un modèle de langage pré-entraîné sur des données du Dark Web. Nous décrivons les étapes suivies pour filtrer et compiler les données textuelles utilisées pour entraîner DarkBERT, afin de contrer l'extrême diversité lexicale et structurelle du Dark Web qui pourrait nuire à la construction d'une représentation adéquate du domaine. Nous évaluons DarkBERT ainsi que son équivalent standard, ainsi que d'autres modèles de langage largement utilisés, pour valider les avantages qu'un modèle spécifique au domaine du Dark Web offre dans divers cas d'utilisation. Nos évaluations montrent que DarkBERT surpasse les modèles de langage actuels et pourrait constituer une ressource précieuse pour les futures recherches sur le Dark Web.
English
Recent research has suggested that there are clear differences in the
language used in the Dark Web compared to that of the Surface Web. As studies
on the Dark Web commonly require textual analysis of the domain, language
models specific to the Dark Web may provide valuable insights to researchers.
In this work, we introduce DarkBERT, a language model pretrained on Dark Web
data. We describe the steps taken to filter and compile the text data used to
train DarkBERT to combat the extreme lexical and structural diversity of the
Dark Web that may be detrimental to building a proper representation of the
domain. We evaluate DarkBERT and its vanilla counterpart along with other
widely used language models to validate the benefits that a Dark Web domain
specific model offers in various use cases. Our evaluations show that DarkBERT
outperforms current language models and may serve as a valuable resource for
future research on the Dark Web.