反ユダヤ主義の検出における大規模言語モデルの評価
Evaluating Large Language Models for Detecting Antisemitism
September 22, 2025
著者: Jay Patel, Hrudayangam Mehta, Jeremy Blackburn
cs.AI
要旨
憎悪表現の検出は、困難でありながら重要な課題である。機械学習モデルなどの自動化ツールは有用であるが、ソーシャルメディアの絶えず変化する状況に適応するためには継続的なトレーニングが必要となる。本研究では、8つのオープンソース大規模言語モデル(LLM)が反ユダヤ主義的コンテンツを検出する能力を評価し、特に文脈内定義を政策ガイドラインとして活用する。さまざまなプロンプト手法を探り、新たなCoT(Chain-of-Thought)風プロンプトであるGuided-CoTを設計する。Guided-CoTは、文脈内の政策をうまく扱い、デコード設定、モデルサイズ、または推論能力に関係なく、すべての評価対象モデルで性能を向上させる。特に、Llama 3.1 70Bは、ファインチューニングされたGPT-3.5を上回る性能を示す。さらに、LLMのエラーを検証し、モデルが生成する根拠における意味論的な乖離を定量化するための指標を導入し、LLM間の顕著な違いと逆説的な振る舞いを明らかにする。我々の実験は、LLMの有用性、説明可能性、信頼性において観察される違いを強調する。
English
Detecting hateful content is a challenging and important problem. Automated
tools, like machine-learning models, can help, but they require continuous
training to adapt to the ever-changing landscape of social media. In this work,
we evaluate eight open-source LLMs' capability to detect antisemitic content,
specifically leveraging in-context definition as a policy guideline. We explore
various prompting techniques and design a new CoT-like prompt, Guided-CoT.
Guided-CoT handles the in-context policy well, increasing performance across
all evaluated models, regardless of decoding configuration, model sizes, or
reasoning capability. Notably, Llama 3.1 70B outperforms fine-tuned GPT-3.5.
Additionally, we examine LLM errors and introduce metrics to quantify semantic
divergence in model-generated rationales, revealing notable differences and
paradoxical behaviors among LLMs. Our experiments highlight the differences
observed across LLMs' utility, explainability, and reliability.