ChatPaper.aiChatPaper

DarkBERT: Un Modello Linguistico per il Lato Oscuro di Internet

DarkBERT: A Language Model for the Dark Side of the Internet

May 15, 2023
Autori: Youngjin Jin, Eugene Jang, Jian Cui, Jin-Woo Chung, Yongjae Lee, Seungwon Shin
cs.AI

Abstract

Recenti ricerche hanno suggerito che esistono chiare differenze nel linguaggio utilizzato nel Dark Web rispetto a quello del Surface Web. Poiché gli studi sul Dark Web richiedono comunemente un'analisi testuale del dominio, modelli linguistici specifici per il Dark Web potrebbero fornire preziose informazioni ai ricercatori. In questo lavoro, presentiamo DarkBERT, un modello linguistico preaddestrato su dati del Dark Web. Descriviamo i passaggi intrapresi per filtrare e compilare i dati testuali utilizzati per addestrare DarkBERT, al fine di contrastare l'estrema diversità lessicale e strutturale del Dark Web che potrebbe essere dannosa per costruire una rappresentazione adeguata del dominio. Valutiamo DarkBERT e la sua controparte standard insieme ad altri modelli linguistici ampiamente utilizzati, per validare i vantaggi che un modello specifico per il dominio del Dark Web offre in vari casi d'uso. Le nostre valutazioni dimostrano che DarkBERT supera gli attuali modelli linguistici e potrebbe rappresentare una risorsa preziosa per future ricerche sul Dark Web.
English
Recent research has suggested that there are clear differences in the language used in the Dark Web compared to that of the Surface Web. As studies on the Dark Web commonly require textual analysis of the domain, language models specific to the Dark Web may provide valuable insights to researchers. In this work, we introduce DarkBERT, a language model pretrained on Dark Web data. We describe the steps taken to filter and compile the text data used to train DarkBERT to combat the extreme lexical and structural diversity of the Dark Web that may be detrimental to building a proper representation of the domain. We evaluate DarkBERT and its vanilla counterpart along with other widely used language models to validate the benefits that a Dark Web domain specific model offers in various use cases. Our evaluations show that DarkBERT outperforms current language models and may serve as a valuable resource for future research on the Dark Web.
PDF1017May 8, 2026