Avaliação de Modelos de Linguagem de Grande Escala para Detecção de Antissemitismo

Resumo

Detectar conteúdo de ódio é um problema desafiador e importante. Ferramentas automatizadas, como modelos de aprendizado de máquina, podem ajudar, mas exigem treinamento contínuo para se adaptar ao cenário em constante mudança das redes sociais. Neste trabalho, avaliamos a capacidade de oito LLMs de código aberto para detectar conteúdo antissemita, especificamente utilizando a definição em contexto como uma diretriz de política. Exploramos várias técnicas de prompt e projetamos um novo prompt semelhante ao CoT, chamado Guided-CoT. O Guided-CoT lida bem com a política em contexto, aumentando o desempenho em todos os modelos avaliados, independentemente da configuração de decodificação, tamanho dos modelos ou capacidade de raciocínio. Notavelmente, o Llama 3.1 70B supera o GPT-3.5 ajustado. Além disso, examinamos os erros dos LLMs e introduzimos métricas para quantificar a divergência semântica nas racionalidades geradas pelos modelos, revelando diferenças notáveis e comportamentos paradoxais entre os LLMs. Nossos experimentos destacam as diferenças observadas na utilidade, explicabilidade e confiabilidade dos LLMs.

English

Detecting hateful content is a challenging and important problem. Automated tools, like machine-learning models, can help, but they require continuous training to adapt to the ever-changing landscape of social media. In this work, we evaluate eight open-source LLMs' capability to detect antisemitic content, specifically leveraging in-context definition as a policy guideline. We explore various prompting techniques and design a new CoT-like prompt, Guided-CoT. Guided-CoT handles the in-context policy well, increasing performance across all evaluated models, regardless of decoding configuration, model sizes, or reasoning capability. Notably, Llama 3.1 70B outperforms fine-tuned GPT-3.5. Additionally, we examine LLM errors and introduce metrics to quantify semantic divergence in model-generated rationales, revealing notable differences and paradoxical behaviors among LLMs. Our experiments highlight the differences observed across LLMs' utility, explainability, and reliability.

Avaliação de Modelos de Linguagem de Grande Escala para Detecção de Antissemitismo

Evaluating Large Language Models for Detecting Antisemitism

Resumo

Support