Оценка крупных языковых моделей для выявления антисемитизма

Аннотация

Обнаружение ненавистнического контента является сложной и важной задачей. Автоматизированные инструменты, такие как модели машинного обучения, могут помочь, но они требуют постоянного обучения для адаптации к постоянно меняющемуся ландшафту социальных сетей. В данной работе мы оцениваем способность восьми открытых языковых моделей (LLM) выявлять антисемитский контент, уделяя особое внимание использованию контекстного определения в качестве политического руководства. Мы исследуем различные методы промптинга и разрабатываем новый промпт, похожий на цепочку рассуждений (CoT), — Guided-CoT. Guided-CoT эффективно справляется с контекстной политикой, повышая производительность всех оцениваемых моделей независимо от конфигурации декодирования, размера модели или способности к рассуждениям. Примечательно, что Llama 3.1 70B превосходит тонко настроенную GPT-3.5. Кроме того, мы анализируем ошибки LLM и вводим метрики для количественной оценки семантического расхождения в обоснованиях, генерируемых моделями, что выявляет значительные различия и парадоксальное поведение среди LLM. Наши эксперименты подчеркивают различия в полезности, объяснимости и надежности различных LLM.

English

Detecting hateful content is a challenging and important problem. Automated tools, like machine-learning models, can help, but they require continuous training to adapt to the ever-changing landscape of social media. In this work, we evaluate eight open-source LLMs' capability to detect antisemitic content, specifically leveraging in-context definition as a policy guideline. We explore various prompting techniques and design a new CoT-like prompt, Guided-CoT. Guided-CoT handles the in-context policy well, increasing performance across all evaluated models, regardless of decoding configuration, model sizes, or reasoning capability. Notably, Llama 3.1 70B outperforms fine-tuned GPT-3.5. Additionally, we examine LLM errors and introduce metrics to quantify semantic divergence in model-generated rationales, revealing notable differences and paradoxical behaviors among LLMs. Our experiments highlight the differences observed across LLMs' utility, explainability, and reliability.

Оценка крупных языковых моделей для выявления антисемитизма

Evaluating Large Language Models for Detecting Antisemitism

Аннотация

Support