ChatPaper.aiChatPaper

Оценка крупных языковых моделей для выявления антисемитизма

Evaluating Large Language Models for Detecting Antisemitism

September 22, 2025
Авторы: Jay Patel, Hrudayangam Mehta, Jeremy Blackburn
cs.AI

Аннотация

Обнаружение ненавистнического контента является сложной и важной задачей. Автоматизированные инструменты, такие как модели машинного обучения, могут помочь, но они требуют постоянного обучения для адаптации к постоянно меняющемуся ландшафту социальных сетей. В данной работе мы оцениваем способность восьми открытых языковых моделей (LLM) выявлять антисемитский контент, уделяя особое внимание использованию контекстного определения в качестве политического руководства. Мы исследуем различные методы промптинга и разрабатываем новый промпт, похожий на цепочку рассуждений (CoT), — Guided-CoT. Guided-CoT эффективно справляется с контекстной политикой, повышая производительность всех оцениваемых моделей независимо от конфигурации декодирования, размера модели или способности к рассуждениям. Примечательно, что Llama 3.1 70B превосходит тонко настроенную GPT-3.5. Кроме того, мы анализируем ошибки LLM и вводим метрики для количественной оценки семантического расхождения в обоснованиях, генерируемых моделями, что выявляет значительные различия и парадоксальное поведение среди LLM. Наши эксперименты подчеркивают различия в полезности, объяснимости и надежности различных LLM.
English
Detecting hateful content is a challenging and important problem. Automated tools, like machine-learning models, can help, but they require continuous training to adapt to the ever-changing landscape of social media. In this work, we evaluate eight open-source LLMs' capability to detect antisemitic content, specifically leveraging in-context definition as a policy guideline. We explore various prompting techniques and design a new CoT-like prompt, Guided-CoT. Guided-CoT handles the in-context policy well, increasing performance across all evaluated models, regardless of decoding configuration, model sizes, or reasoning capability. Notably, Llama 3.1 70B outperforms fine-tuned GPT-3.5. Additionally, we examine LLM errors and introduce metrics to quantify semantic divergence in model-generated rationales, revealing notable differences and paradoxical behaviors among LLMs. Our experiments highlight the differences observed across LLMs' utility, explainability, and reliability.
PDF12September 26, 2025