ChatPaper.aiChatPaper

Hatevolution: O que os Benchmarks Estáticos não nos Revelam

Hatevolution: What Static Benchmarks Don't Tell Us

June 13, 2025
Autores: Chiara Di Bonaventura, Barbara McGillivray, Yulan He, Albert Meroño-Peñuela
cs.AI

Resumo

A linguagem muda ao longo do tempo, inclusive no domínio do discurso de ódio, que evolui rapidamente seguindo dinâmicas sociais e mudanças culturais. Embora a pesquisa em PLN tenha investigado o impacto da evolução da linguagem no treinamento de modelos e tenha proposto várias soluções para isso, seu impacto na avaliação de modelos permanece pouco explorado. No entanto, benchmarks de discurso de ódio desempenham um papel crucial para garantir a segurança dos modelos. Neste artigo, avaliamos empiricamente a robustez de 20 modelos de linguagem em dois experimentos de discurso de ódio em evolução, e mostramos o desalinhamento temporal entre avaliações estáticas e sensíveis ao tempo. Nossas descobertas apontam para a necessidade de benchmarks linguísticos sensíveis ao tempo, a fim de avaliar correta e confiavelmente modelos de linguagem no domínio do discurso de ódio.
English
Language changes over time, including in the hate speech domain, which evolves quickly following social dynamics and cultural shifts. While NLP research has investigated the impact of language evolution on model training and has proposed several solutions for it, its impact on model benchmarking remains under-explored. Yet, hate speech benchmarks play a crucial role to ensure model safety. In this paper, we empirically evaluate the robustness of 20 language models across two evolving hate speech experiments, and we show the temporal misalignment between static and time-sensitive evaluations. Our findings call for time-sensitive linguistic benchmarks in order to correctly and reliably evaluate language models in the hate speech domain.
PDF12June 17, 2025