DarkBERT: インターネットのダークサイド向け言語モデル
DarkBERT: A Language Model for the Dark Side of the Internet
May 15, 2023
著者: Youngjin Jin, Eugene Jang, Jian Cui, Jin-Woo Chung, Yongjae Lee, Seungwon Shin
cs.AI
要旨
最近の研究によると、ダークウェブで使用される言語はサーフェスウェブのものとは明確な違いがあることが示唆されています。ダークウェブに関する研究では通常、ドメインのテキスト分析が必要となるため、ダークウェブに特化した言語モデルは研究者にとって貴重な知見を提供する可能性があります。本研究では、ダークウェブのデータで事前学習された言語モデルであるDarkBERTを紹介します。ダークウェブの極端な語彙的・構造的多様性がドメインの適切な表現構築に悪影響を及ぼす可能性があるため、DarkBERTの訓練に使用するテキストデータをフィルタリングおよび収集するために取られた手順について説明します。DarkBERTとそのベースモデル、および他の広く使用されている言語モデルを評価し、ダークウェブドメインに特化したモデルがさまざまなユースケースで提供する利点を検証します。我々の評価結果は、DarkBERTが現在の言語モデルを上回り、今後のダークウェブ研究における貴重なリソースとして役立つ可能性があることを示しています。
English
Recent research has suggested that there are clear differences in the
language used in the Dark Web compared to that of the Surface Web. As studies
on the Dark Web commonly require textual analysis of the domain, language
models specific to the Dark Web may provide valuable insights to researchers.
In this work, we introduce DarkBERT, a language model pretrained on Dark Web
data. We describe the steps taken to filter and compile the text data used to
train DarkBERT to combat the extreme lexical and structural diversity of the
Dark Web that may be detrimental to building a proper representation of the
domain. We evaluate DarkBERT and its vanilla counterpart along with other
widely used language models to validate the benefits that a Dark Web domain
specific model offers in various use cases. Our evaluations show that DarkBERT
outperforms current language models and may serve as a valuable resource for
future research on the Dark Web.