DarkBERT: Ein Sprachmodell für die dunkle Seite des Internets
DarkBERT: A Language Model for the Dark Side of the Internet
May 15, 2023
Autoren: Youngjin Jin, Eugene Jang, Jian Cui, Jin-Woo Chung, Yongjae Lee, Seungwon Shin
cs.AI
Zusammenfassung
Aktuelle Forschungen deuten darauf hin, dass es deutliche Unterschiede in der Sprache des Dark Web im Vergleich zum Surface Web gibt. Da Studien zum Dark Web häufig eine Textanalyse der Domäne erfordern, könnten spezifische Sprachmodelle für das Dark Web wertvolle Einblicke für Forscher bieten. In dieser Arbeit stellen wir DarkBERT vor, ein Sprachmodell, das auf Daten des Dark Web vortrainiert wurde. Wir beschreiben die Schritte, die unternommen wurden, um die Textdaten zu filtern und zusammenzustellen, die zur Trainierung von DarkBERT verwendet wurden, um der extremen lexikalischen und strukturellen Vielfalt des Dark Web entgegenzuwirken, die eine angemessene Repräsentation der Domäne beeinträchtigen könnte. Wir evaluieren DarkBERT und sein Standard-Pendant sowie andere weit verbreitete Sprachmodelle, um die Vorteile eines domänenspezifischen Modells für das Dark Web in verschiedenen Anwendungsfällen zu validieren. Unsere Auswertungen zeigen, dass DarkBERT aktuelle Sprachmodelle übertrifft und als wertvolle Ressource für zukünftige Forschungen zum Dark Web dienen kann.
English
Recent research has suggested that there are clear differences in the
language used in the Dark Web compared to that of the Surface Web. As studies
on the Dark Web commonly require textual analysis of the domain, language
models specific to the Dark Web may provide valuable insights to researchers.
In this work, we introduce DarkBERT, a language model pretrained on Dark Web
data. We describe the steps taken to filter and compile the text data used to
train DarkBERT to combat the extreme lexical and structural diversity of the
Dark Web that may be detrimental to building a proper representation of the
domain. We evaluate DarkBERT and its vanilla counterpart along with other
widely used language models to validate the benefits that a Dark Web domain
specific model offers in various use cases. Our evaluations show that DarkBERT
outperforms current language models and may serve as a valuable resource for
future research on the Dark Web.