ChatPaper.aiChatPaper

Evaluatie van grote taalmodellen voor het detecteren van antisemitisme

Evaluating Large Language Models for Detecting Antisemitism

September 22, 2025
Auteurs: Jay Patel, Hrudayangam Mehta, Jeremy Blackburn
cs.AI

Samenvatting

Het detecteren van hatelijke content is een uitdagend en belangrijk probleem. Geautomatiseerde tools, zoals machine learning-modellen, kunnen hierbij helpen, maar ze vereisen continue training om zich aan te passen aan het voortdurend veranderende landschap van sociale media. In dit werk evalueren we de capaciteit van acht open-source LLM's om antisemitische content te detecteren, waarbij we specifiek gebruikmaken van in-context definities als beleidsrichtlijn. We onderzoeken verschillende promptingtechnieken en ontwerpen een nieuwe CoT-achtige prompt, Guided-CoT. Guided-CoT gaat goed om met het in-context beleid en verbetert de prestaties van alle geëvalueerde modellen, ongeacht de decodeerconfiguratie, modelgroottes of redeneercapaciteit. Opmerkelijk is dat Llama 3.1 70B beter presteert dan een fijn afgestemd GPT-3.5. Daarnaast onderzoeken we fouten van LLM's en introduceren we metrieken om semantische divergentie in door modellen gegenereerde redeneringen te kwantificeren, wat opmerkelijke verschillen en paradoxaal gedrag onder LLM's aan het licht brengt. Onze experimenten benadrukken de verschillen in bruikbaarheid, verklaarbaarheid en betrouwbaarheid die worden waargenomen bij verschillende LLM's.
English
Detecting hateful content is a challenging and important problem. Automated tools, like machine-learning models, can help, but they require continuous training to adapt to the ever-changing landscape of social media. In this work, we evaluate eight open-source LLMs' capability to detect antisemitic content, specifically leveraging in-context definition as a policy guideline. We explore various prompting techniques and design a new CoT-like prompt, Guided-CoT. Guided-CoT handles the in-context policy well, increasing performance across all evaluated models, regardless of decoding configuration, model sizes, or reasoning capability. Notably, Llama 3.1 70B outperforms fine-tuned GPT-3.5. Additionally, we examine LLM errors and introduce metrics to quantify semantic divergence in model-generated rationales, revealing notable differences and paradoxical behaviors among LLMs. Our experiments highlight the differences observed across LLMs' utility, explainability, and reliability.
PDF13September 26, 2025