ChatPaper.aiChatPaper

Évaluation des modèles de langage de grande taille pour la détection de l'antisémitisme

Evaluating Large Language Models for Detecting Antisemitism

September 22, 2025
papers.authors: Jay Patel, Hrudayangam Mehta, Jeremy Blackburn
cs.AI

papers.abstract

La détection de contenus haineux constitue un problème complexe et crucial. Les outils automatisés, tels que les modèles d'apprentissage automatique, peuvent y contribuer, mais ils nécessitent un entraînement continu pour s'adapter à l'évolution constante des paysages des réseaux sociaux. Dans ce travail, nous évaluons la capacité de huit modèles de langage open source (LLMs) à détecter les contenus antisémites, en exploitant spécifiquement une définition contextuelle comme ligne directrice politique. Nous explorons diverses techniques d'incitation (prompting) et concevons une nouvelle incitation de type chaîne de pensée (CoT), appelée Guided-CoT. Guided-CoT gère efficacement la politique contextuelle, améliorant les performances de tous les modèles évalués, indépendamment de la configuration de décodage, de la taille des modèles ou de leur capacité de raisonnement. Notamment, Llama 3.1 70B surpasse GPT-3.5 affiné. Par ailleurs, nous examinons les erreurs des LLMs et introduisons des métriques pour quantifier la divergence sémantique dans les justifications générées par les modèles, révélant des différences notables et des comportements paradoxaux parmi les LLMs. Nos expériences mettent en lumière les variations observées en termes d'utilité, d'explicabilité et de fiabilité des LLMs.
English
Detecting hateful content is a challenging and important problem. Automated tools, like machine-learning models, can help, but they require continuous training to adapt to the ever-changing landscape of social media. In this work, we evaluate eight open-source LLMs' capability to detect antisemitic content, specifically leveraging in-context definition as a policy guideline. We explore various prompting techniques and design a new CoT-like prompt, Guided-CoT. Guided-CoT handles the in-context policy well, increasing performance across all evaluated models, regardless of decoding configuration, model sizes, or reasoning capability. Notably, Llama 3.1 70B outperforms fine-tuned GPT-3.5. Additionally, we examine LLM errors and introduce metrics to quantify semantic divergence in model-generated rationales, revealing notable differences and paradoxical behaviors among LLMs. Our experiments highlight the differences observed across LLMs' utility, explainability, and reliability.
PDF12September 26, 2025