ChatPaper.aiChatPaper

DarkBERT: Языковая модель для теневой стороны интернета

DarkBERT: A Language Model for the Dark Side of the Internet

May 15, 2023
Авторы: Youngjin Jin, Eugene Jang, Jian Cui, Jin-Woo Chung, Yongjae Lee, Seungwon Shin
cs.AI

Аннотация

Недавние исследования показали, что существуют явные различия в языке, используемом в Dark Web, по сравнению с Surface Web. Поскольку исследования Dark Web обычно требуют текстового анализа этой области, языковые модели, специфичные для Dark Web, могут предоставить ценные данные для исследователей. В данной работе мы представляем DarkBERT — языковую модель, предварительно обученную на данных Dark Web. Мы описываем шаги, предпринятые для фильтрации и компиляции текстовых данных, используемых для обучения DarkBERT, чтобы справиться с крайним лексическим и структурным разнообразием Dark Web, которое может препятствовать построению адекватного представления этой области. Мы оцениваем DarkBERT и его базовую версию, а также другие широко используемые языковые модели, чтобы подтвердить преимущества, которые предлагает модель, специфичная для Dark Web, в различных сценариях использования. Наши оценки показывают, что DarkBERT превосходит текущие языковые модели и может стать ценным ресурсом для будущих исследований Dark Web.
English
Recent research has suggested that there are clear differences in the language used in the Dark Web compared to that of the Surface Web. As studies on the Dark Web commonly require textual analysis of the domain, language models specific to the Dark Web may provide valuable insights to researchers. In this work, we introduce DarkBERT, a language model pretrained on Dark Web data. We describe the steps taken to filter and compile the text data used to train DarkBERT to combat the extreme lexical and structural diversity of the Dark Web that may be detrimental to building a proper representation of the domain. We evaluate DarkBERT and its vanilla counterpart along with other widely used language models to validate the benefits that a Dark Web domain specific model offers in various use cases. Our evaluations show that DarkBERT outperforms current language models and may serve as a valuable resource for future research on the Dark Web.
PDF916December 15, 2024