ChatPaper.aiChatPaper

DarkBERT: Een Taalmodel voor de Duistere Kant van het Internet

DarkBERT: A Language Model for the Dark Side of the Internet

May 15, 2023
Auteurs: Youngjin Jin, Eugene Jang, Jian Cui, Jin-Woo Chung, Yongjae Lee, Seungwon Shin
cs.AI

Samenvatting

Recent onderzoek heeft gesuggereerd dat er duidelijke verschillen zijn in de taal die wordt gebruikt op het Dark Web in vergelijking met die van het Surface Web. Omdat studies over het Dark Web vaak tekstuele analyse van het domein vereisen, kunnen taalmodelen die specifiek zijn voor het Dark Web waardevolle inzichten bieden aan onderzoekers. In dit werk introduceren we DarkBERT, een taalmodel dat vooraf is getraind op Dark Web-data. We beschrijven de stappen die zijn genomen om de tekstdata die wordt gebruikt om DarkBERT te trainen te filteren en samen te stellen, om de extreme lexicale en structurele diversiteit van het Dark Web te bestrijden die schadelijk kan zijn voor het opbouwen van een goede representatie van het domein. We evalueren DarkBERT en zijn standaard tegenhanger, samen met andere veelgebruikte taalmodelen, om de voordelen te valideren die een domeinspecifiek model voor het Dark Web biedt in verschillende use cases. Onze evaluaties tonen aan dat DarkBERT huidige taalmodelen overtreft en kan dienen als een waardevolle bron voor toekomstig onderzoek naar het Dark Web.
English
Recent research has suggested that there are clear differences in the language used in the Dark Web compared to that of the Surface Web. As studies on the Dark Web commonly require textual analysis of the domain, language models specific to the Dark Web may provide valuable insights to researchers. In this work, we introduce DarkBERT, a language model pretrained on Dark Web data. We describe the steps taken to filter and compile the text data used to train DarkBERT to combat the extreme lexical and structural diversity of the Dark Web that may be detrimental to building a proper representation of the domain. We evaluate DarkBERT and its vanilla counterpart along with other widely used language models to validate the benefits that a Dark Web domain specific model offers in various use cases. Our evaluations show that DarkBERT outperforms current language models and may serve as a valuable resource for future research on the Dark Web.
PDF917December 15, 2024