ChatPaper.aiChatPaper

DarkBERT: 인터넷의 어두운 면을 위한 언어 모델

DarkBERT: A Language Model for the Dark Side of the Internet

May 15, 2023
저자: Youngjin Jin, Eugene Jang, Jian Cui, Jin-Woo Chung, Yongjae Lee, Seungwon Shin
cs.AI

초록

최근 연구에 따르면 다크 웹에서 사용되는 언어는 서피스 웹과 비교했을 때 명확한 차이점이 있는 것으로 나타났습니다. 다크 웹에 대한 연구는 일반적으로 해당 도메인의 텍스트 분석을 필요로 하기 때문에, 다크 웹에 특화된 언어 모델은 연구자들에게 유용한 통찰을 제공할 수 있습니다. 본 연구에서는 다크 웹 데이터로 사전 학습된 언어 모델인 DarkBERT를 소개합니다. 우리는 다크 웹의 극단적인 어휘 및 구조적 다양성으로 인해 도메인의 적절한 표현을 구축하는 데 방해가 될 수 있는 요소를 극복하기 위해 DarkBERT를 학습시키는 데 사용된 텍스트 데이터를 필터링하고 컴파일하는 과정을 설명합니다. DarkBERT와 기본 모델, 그리고 널리 사용되는 다른 언어 모델들을 평가하여 다크 웹 도메인 특화 모델이 다양한 사용 사례에서 제공하는 이점을 검증합니다. 평가 결과, DarkBERT는 현재의 언어 모델들을 능가하며, 다크 웹에 대한 향후 연구를 위한 가치 있는 자원으로 활용될 수 있음을 보여줍니다.
English
Recent research has suggested that there are clear differences in the language used in the Dark Web compared to that of the Surface Web. As studies on the Dark Web commonly require textual analysis of the domain, language models specific to the Dark Web may provide valuable insights to researchers. In this work, we introduce DarkBERT, a language model pretrained on Dark Web data. We describe the steps taken to filter and compile the text data used to train DarkBERT to combat the extreme lexical and structural diversity of the Dark Web that may be detrimental to building a proper representation of the domain. We evaluate DarkBERT and its vanilla counterpart along with other widely used language models to validate the benefits that a Dark Web domain specific model offers in various use cases. Our evaluations show that DarkBERT outperforms current language models and may serve as a valuable resource for future research on the Dark Web.
PDF916December 15, 2024