ChatPaper.aiChatPaper

Avaliação de Modelos de Linguagem de Grande Escala para Detecção de Antissemitismo

Evaluating Large Language Models for Detecting Antisemitism

September 22, 2025
Autores: Jay Patel, Hrudayangam Mehta, Jeremy Blackburn
cs.AI

Resumo

Detectar conteúdo de ódio é um problema desafiador e importante. Ferramentas automatizadas, como modelos de aprendizado de máquina, podem ajudar, mas exigem treinamento contínuo para se adaptar ao cenário em constante mudança das redes sociais. Neste trabalho, avaliamos a capacidade de oito LLMs de código aberto para detectar conteúdo antissemita, especificamente utilizando a definição em contexto como uma diretriz de política. Exploramos várias técnicas de prompt e projetamos um novo prompt semelhante ao CoT, chamado Guided-CoT. O Guided-CoT lida bem com a política em contexto, aumentando o desempenho em todos os modelos avaliados, independentemente da configuração de decodificação, tamanho dos modelos ou capacidade de raciocínio. Notavelmente, o Llama 3.1 70B supera o GPT-3.5 ajustado. Além disso, examinamos os erros dos LLMs e introduzimos métricas para quantificar a divergência semântica nas racionalidades geradas pelos modelos, revelando diferenças notáveis e comportamentos paradoxais entre os LLMs. Nossos experimentos destacam as diferenças observadas na utilidade, explicabilidade e confiabilidade dos LLMs.
English
Detecting hateful content is a challenging and important problem. Automated tools, like machine-learning models, can help, but they require continuous training to adapt to the ever-changing landscape of social media. In this work, we evaluate eight open-source LLMs' capability to detect antisemitic content, specifically leveraging in-context definition as a policy guideline. We explore various prompting techniques and design a new CoT-like prompt, Guided-CoT. Guided-CoT handles the in-context policy well, increasing performance across all evaluated models, regardless of decoding configuration, model sizes, or reasoning capability. Notably, Llama 3.1 70B outperforms fine-tuned GPT-3.5. Additionally, we examine LLM errors and introduce metrics to quantify semantic divergence in model-generated rationales, revealing notable differences and paradoxical behaviors among LLMs. Our experiments highlight the differences observed across LLMs' utility, explainability, and reliability.
PDF13September 26, 2025