ヘイトエボリューション:静的ベンチマークが語らないもの
Hatevolution: What Static Benchmarks Don't Tell Us
June 13, 2025
著者: Chiara Di Bonaventura, Barbara McGillivray, Yulan He, Albert Meroño-Peñuela
cs.AI
要旨
言語は時間とともに変化し、特にヘイトスピーチの領域では、社会的ダイナミクスや文化的変遷に応じて急速に進化する。自然言語処理(NLP)研究では、言語の進化がモデル訓練に与える影響を調査し、それに対するいくつかの解決策を提案してきたが、モデルのベンチマーク評価への影響はまだ十分に検討されていない。しかし、ヘイトスピーチのベンチマークは、モデルの安全性を確保する上で重要な役割を果たす。本論文では、2つの進化するヘイトスピーチ実験において、20の言語モデルの頑健性を実証的に評価し、静的評価と時間的感度を考慮した評価の間の時間的なずれを示す。我々の研究結果は、ヘイトスピーチ領域において言語モデルを正確かつ信頼性高く評価するためには、時間的感度を考慮した言語ベンチマークが必要であることを示唆している。
English
Language changes over time, including in the hate speech domain, which
evolves quickly following social dynamics and cultural shifts. While NLP
research has investigated the impact of language evolution on model training
and has proposed several solutions for it, its impact on model benchmarking
remains under-explored. Yet, hate speech benchmarks play a crucial role to
ensure model safety. In this paper, we empirically evaluate the robustness of
20 language models across two evolving hate speech experiments, and we show the
temporal misalignment between static and time-sensitive evaluations. Our
findings call for time-sensitive linguistic benchmarks in order to correctly
and reliably evaluate language models in the hate speech domain.