ChatPaper.aiChatPaper

DarkBERT: Un Modelo de Lenguaje para el Lado Oscuro de Internet

DarkBERT: A Language Model for the Dark Side of the Internet

May 15, 2023
Autores: Youngjin Jin, Eugene Jang, Jian Cui, Jin-Woo Chung, Yongjae Lee, Seungwon Shin
cs.AI

Resumen

Investigaciones recientes han sugerido que existen diferencias claras en el lenguaje utilizado en la Dark Web en comparación con el de la Surface Web. Dado que los estudios sobre la Dark Web comúnmente requieren análisis textual del dominio, los modelos de lenguaje específicos para la Dark Web pueden proporcionar información valiosa a los investigadores. En este trabajo, presentamos DarkBERT, un modelo de lenguaje preentrenado con datos de la Dark Web. Describimos los pasos tomados para filtrar y compilar los datos de texto utilizados para entrenar DarkBERT, con el fin de combatir la extrema diversidad léxica y estructural de la Dark Web que podría ser perjudicial para construir una representación adecuada del dominio. Evaluamos DarkBERT y su contraparte estándar, junto con otros modelos de lenguaje ampliamente utilizados, para validar los beneficios que ofrece un modelo específico del dominio de la Dark Web en diversos casos de uso. Nuestras evaluaciones muestran que DarkBERT supera a los modelos de lenguaje actuales y puede servir como un recurso valioso para futuras investigaciones sobre la Dark Web.
English
Recent research has suggested that there are clear differences in the language used in the Dark Web compared to that of the Surface Web. As studies on the Dark Web commonly require textual analysis of the domain, language models specific to the Dark Web may provide valuable insights to researchers. In this work, we introduce DarkBERT, a language model pretrained on Dark Web data. We describe the steps taken to filter and compile the text data used to train DarkBERT to combat the extreme lexical and structural diversity of the Dark Web that may be detrimental to building a proper representation of the domain. We evaluate DarkBERT and its vanilla counterpart along with other widely used language models to validate the benefits that a Dark Web domain specific model offers in various use cases. Our evaluations show that DarkBERT outperforms current language models and may serve as a valuable resource for future research on the Dark Web.
PDF916December 15, 2024