DarkBERT: Um Modelo de Linguagem para o Lado Sombrio da Internet
DarkBERT: A Language Model for the Dark Side of the Internet
May 15, 2023
Autores: Youngjin Jin, Eugene Jang, Jian Cui, Jin-Woo Chung, Yongjae Lee, Seungwon Shin
cs.AI
Resumo
Pesquisas recentes sugerem que existem diferenças claras na linguagem utilizada na Dark Web em comparação com a Surface Web. Como os estudos sobre a Dark Web geralmente exigem análise textual do domínio, modelos de linguagem específicos para a Dark Web podem fornecer insights valiosos aos pesquisadores. Neste trabalho, apresentamos o DarkBERT, um modelo de linguagem pré-treinado com dados da Dark Web. Descrevemos as etapas tomadas para filtrar e compilar os dados textuais usados para treinar o DarkBERT, a fim de combater a extrema diversidade lexical e estrutural da Dark Web que pode ser prejudicial para a construção de uma representação adequada do domínio. Avaliamos o DarkBERT e sua contraparte padrão, juntamente com outros modelos de linguagem amplamente utilizados, para validar os benefícios que um modelo específico para o domínio da Dark Web oferece em vários casos de uso. Nossas avaliações mostram que o DarkBERT supera os modelos de linguagem atuais e pode servir como um recurso valioso para pesquisas futuras sobre a Dark Web.
English
Recent research has suggested that there are clear differences in the
language used in the Dark Web compared to that of the Surface Web. As studies
on the Dark Web commonly require textual analysis of the domain, language
models specific to the Dark Web may provide valuable insights to researchers.
In this work, we introduce DarkBERT, a language model pretrained on Dark Web
data. We describe the steps taken to filter and compile the text data used to
train DarkBERT to combat the extreme lexical and structural diversity of the
Dark Web that may be detrimental to building a proper representation of the
domain. We evaluate DarkBERT and its vanilla counterpart along with other
widely used language models to validate the benefits that a Dark Web domain
specific model offers in various use cases. Our evaluations show that DarkBERT
outperforms current language models and may serve as a valuable resource for
future research on the Dark Web.