Hatevolution: 정적 벤치마크가 알려주지 못하는 것들
Hatevolution: What Static Benchmarks Don't Tell Us
June 13, 2025
저자: Chiara Di Bonaventura, Barbara McGillivray, Yulan He, Albert Meroño-Peñuela
cs.AI
초록
언어는 시간에 따라 변화하며, 특히 혐오 발화 영역은 사회적 역학과 문화적 변화에 따라 빠르게 진화합니다. 자연어 처리(NLP) 연구는 언어 진화가 모델 학습에 미치는 영향을 조사하고 이를 위한 여러 해결책을 제안해 왔지만, 모델 벤치마킹에 미치는 영향은 아직 충분히 탐구되지 않았습니다. 그러나 혐오 발화 벤치마크는 모델 안전성을 보장하는 데 중요한 역할을 합니다. 본 논문에서는 두 가지 진화하는 혐오 발화 실험을 통해 20개의 언어 모델의 견고성을 실증적으로 평가하고, 정적 평가와 시간 민감성 평가 간의 시간적 불일치를 보여줍니다. 우리의 연구 결과는 혐오 발화 영역에서 언어 모델을 올바르고 신뢰할 수 있게 평가하기 위해 시간 민감성 언어 벤치마크의 필요성을 강조합니다.
English
Language changes over time, including in the hate speech domain, which
evolves quickly following social dynamics and cultural shifts. While NLP
research has investigated the impact of language evolution on model training
and has proposed several solutions for it, its impact on model benchmarking
remains under-explored. Yet, hate speech benchmarks play a crucial role to
ensure model safety. In this paper, we empirically evaluate the robustness of
20 language models across two evolving hate speech experiments, and we show the
temporal misalignment between static and time-sensitive evaluations. Our
findings call for time-sensitive linguistic benchmarks in order to correctly
and reliably evaluate language models in the hate speech domain.