ChatPaper.aiChatPaper

Valutazione dei Modelli Linguistici di Grandi Dimensioni per il Rilevamento dell'Antisemitismo

Evaluating Large Language Models for Detecting Antisemitism

September 22, 2025
Autori: Jay Patel, Hrudayangam Mehta, Jeremy Blackburn
cs.AI

Abstract

Rilevare contenuti d'odio è un problema complesso e di grande importanza. Strumenti automatizzati, come i modelli di machine learning, possono essere d'aiuto, ma richiedono un addestramento continuo per adattarsi al panorama in costante evoluzione dei social media. In questo lavoro, valutiamo la capacità di otto LLM open-source di rilevare contenuti antisemiti, sfruttando specificamente la definizione in contesto come linea guida politica. Esploriamo varie tecniche di prompting e progettiamo un nuovo prompt simile al CoT, chiamato Guided-CoT. Guided-CoT gestisce efficacemente la politica in contesto, migliorando le prestazioni di tutti i modelli valutati, indipendentemente dalla configurazione di decodifica, dalle dimensioni del modello o dalla capacità di ragionamento. In particolare, Llama 3.1 70B supera GPT-3.5 fine-tuned. Inoltre, esaminiamo gli errori degli LLM e introduciamo metriche per quantificare la divergenza semantica nelle razionalità generate dai modelli, rivelando differenze significative e comportamenti paradossali tra gli LLM. I nostri esperimenti evidenziano le differenze osservate nell'utilità, spiegabilità e affidabilità degli LLM.
English
Detecting hateful content is a challenging and important problem. Automated tools, like machine-learning models, can help, but they require continuous training to adapt to the ever-changing landscape of social media. In this work, we evaluate eight open-source LLMs' capability to detect antisemitic content, specifically leveraging in-context definition as a policy guideline. We explore various prompting techniques and design a new CoT-like prompt, Guided-CoT. Guided-CoT handles the in-context policy well, increasing performance across all evaluated models, regardless of decoding configuration, model sizes, or reasoning capability. Notably, Llama 3.1 70B outperforms fine-tuned GPT-3.5. Additionally, we examine LLM errors and introduce metrics to quantify semantic divergence in model-generated rationales, revealing notable differences and paradoxical behaviors among LLMs. Our experiments highlight the differences observed across LLMs' utility, explainability, and reliability.
PDF13September 26, 2025