Evaluación de Modelos de Lenguaje a Gran Escala para la Detección de Antisemitismo
Evaluating Large Language Models for Detecting Antisemitism
September 22, 2025
Autores: Jay Patel, Hrudayangam Mehta, Jeremy Blackburn
cs.AI
Resumen
La detección de contenido odioso es un problema desafiante e importante. Las herramientas automatizadas, como los modelos de aprendizaje automático, pueden ayudar, pero requieren entrenamiento continuo para adaptarse al panorama en constante evolución de las redes sociales. En este trabajo, evaluamos la capacidad de ocho modelos de lenguaje de código abierto (LLM) para detectar contenido antisemita, aprovechando específicamente la definición en contexto como una guía de política. Exploramos diversas técnicas de "prompting" y diseñamos un nuevo "prompt" similar al razonamiento en cadena (CoT), denominado Guided-CoT. Guided-CoT maneja bien la política en contexto, mejorando el rendimiento en todos los modelos evaluados, independientemente de la configuración de decodificación, el tamaño del modelo o la capacidad de razonamiento. Notablemente, Llama 3.1 70B supera a GPT-3.5 ajustado específicamente. Además, examinamos los errores de los LLM e introducimos métricas para cuantificar la divergencia semántica en las justificaciones generadas por los modelos, revelando diferencias notables y comportamientos paradójicos entre los LLM. Nuestros experimentos destacan las diferencias observadas en la utilidad, explicabilidad y confiabilidad de los LLM.
English
Detecting hateful content is a challenging and important problem. Automated
tools, like machine-learning models, can help, but they require continuous
training to adapt to the ever-changing landscape of social media. In this work,
we evaluate eight open-source LLMs' capability to detect antisemitic content,
specifically leveraging in-context definition as a policy guideline. We explore
various prompting techniques and design a new CoT-like prompt, Guided-CoT.
Guided-CoT handles the in-context policy well, increasing performance across
all evaluated models, regardless of decoding configuration, model sizes, or
reasoning capability. Notably, Llama 3.1 70B outperforms fine-tuned GPT-3.5.
Additionally, we examine LLM errors and introduce metrics to quantify semantic
divergence in model-generated rationales, revealing notable differences and
paradoxical behaviors among LLMs. Our experiments highlight the differences
observed across LLMs' utility, explainability, and reliability.