2,000개 이상의 다국어 벤치마크에서 얻은 쓴 교훈
The Bitter Lesson Learned from 2,000+ Multilingual Benchmarks
April 22, 2025
저자: Minghao Wu, Weixuan Wang, Sinuo Liu, Huifeng Yin, Xintong Wang, Yu Zhao, Chenyang Lyu, Longyue Wang, Weihua Luo, Kaifu Zhang
cs.AI
초록
대규모 언어 모델(LLM)의 언어 능력이 계속 발전함에 따라, 공평한 기술 발전을 촉진하기 위해 강력한 다국어 평가가 필수적이 되었습니다. 이 포지션 페이퍼는 2021년부터 2024년까지 148개국에서 발표된 2,000개 이상의 다국어(비영어) 벤치마크를 검토하여 다국어 벤치마킹의 과거, 현재, 미래의 관행을 평가합니다. 우리의 연구 결과는 수천만 달러에 달하는 상당한 투자에도 불구하고, 이러한 벤치마크에서 영어가 여전히 상당히 과도하게 대표되고 있음을 보여줍니다. 또한, 대부분의 벤치마크는 번역이 아닌 원본 언어 콘텐츠에 의존하며, 이들 중 다수는 중국, 인도, 독일, 영국, 미국과 같은 고자원 국가에서 유래했습니다. 더 나아가, 벤치마크 성능과 인간 판단을 비교한 결과, 상당한 차이가 있음이 드러났습니다. STEM 관련 작업은 인간 평가와 강한 상관관계(0.70~0.85)를 보인 반면, 질문 응답(예: XQuAD)과 같은 전통적인 NLP 작업은 훨씬 약한 상관관계(0.11~0.30)를 보였습니다. 또한, 영어 벤치마크를 다른 언어로 번역하는 것은 충분하지 않으며, 현지화된 벤치마크가 번역된 벤치마크(0.47)보다 현지 인간 판단과 훨씬 더 높은 일치도(0.68)를 보이는 것으로 나타났습니다. 이는 번역에만 의존하기보다는 문화적, 언어적으로 맞춤화된 벤치마크를 만드는 것의 중요성을 강조합니다. 이 포괄적인 분석을 통해, 우리는 현재 다국어 평가 관행의 여섯 가지 주요 한계를 지적하고, 이에 따라 효과적인 다국어 벤치마킹을 위한 지침 원칙을 제안하며, 이 분야의 진전을 이끌기 위한 다섯 가지 중요한 연구 방향을 제시합니다. 마지막으로, 우리는 현실 세계의 응용을 우선시하는 인간과 일치하는 벤치마크를 개발하기 위한 글로벌 협력 노력을 촉구합니다.
English
As large language models (LLMs) continue to advance in linguistic
capabilities, robust multilingual evaluation has become essential for promoting
equitable technological progress. This position paper examines over 2,000
multilingual (non-English) benchmarks from 148 countries, published between
2021 and 2024, to evaluate past, present, and future practices in multilingual
benchmarking. Our findings reveal that, despite significant investments
amounting to tens of millions of dollars, English remains significantly
overrepresented in these benchmarks. Additionally, most benchmarks rely on
original language content rather than translations, with the majority sourced
from high-resource countries such as China, India, Germany, the UK, and the
USA. Furthermore, a comparison of benchmark performance with human judgments
highlights notable disparities. STEM-related tasks exhibit strong correlations
with human evaluations (0.70 to 0.85), while traditional NLP tasks like
question answering (e.g., XQuAD) show much weaker correlations (0.11 to 0.30).
Moreover, translating English benchmarks into other languages proves
insufficient, as localized benchmarks demonstrate significantly higher
alignment with local human judgments (0.68) than their translated counterparts
(0.47). This underscores the importance of creating culturally and
linguistically tailored benchmarks rather than relying solely on translations.
Through this comprehensive analysis, we highlight six key limitations in
current multilingual evaluation practices, propose the guiding principles
accordingly for effective multilingual benchmarking, and outline five critical
research directions to drive progress in the field. Finally, we call for a
global collaborative effort to develop human-aligned benchmarks that prioritize
real-world applications.Summary
AI-Generated Summary