Горький урок, извлеченный из более чем 2000 многоязычных тестов
The Bitter Lesson Learned from 2,000+ Multilingual Benchmarks
April 22, 2025
Авторы: Minghao Wu, Weixuan Wang, Sinuo Liu, Huifeng Yin, Xintong Wang, Yu Zhao, Chenyang Lyu, Longyue Wang, Weihua Luo, Kaifu Zhang
cs.AI
Аннотация
По мере того как крупные языковые модели (LLM) продолжают совершенствовать свои лингвистические способности, надежная многоязычная оценка становится важным элементом для обеспечения справедливого технологического прогресса. В данной аналитической статье рассматривается более 2000 многоязычных (неанглоязычных) тестовых наборов из 148 стран, опубликованных в период с 2021 по 2024 год, с целью оценки прошлых, текущих и будущих практик в области многоязычного тестирования. Наши результаты показывают, что, несмотря на значительные инвестиции, исчисляемые десятками миллионов долларов, английский язык остается существенно перепредставленным в этих тестовых наборах. Кроме того, большинство наборов данных опираются на оригинальные тексты, а не на переводы, причем основная их часть поступает из стран с высоким уровнем ресурсов, таких как Китай, Индия, Германия, Великобритания и США. Более того, сравнение результатов тестовых наборов с оценками людей выявляет заметные расхождения. Задачи, связанные с STEM, демонстрируют сильную корреляцию с человеческими оценками (0,70–0,85), тогда как традиционные задачи NLP, такие как ответы на вопросы (например, XQuAD), показывают гораздо более слабую корреляцию (0,11–0,30). Кроме того, перевод англоязычных тестовых наборов на другие языки оказывается недостаточным, поскольку локализованные наборы данных демонстрируют значительно более высокое соответствие локальным человеческим оценкам (0,68) по сравнению с их переведенными аналогами (0,47). Это подчеркивает важность создания культурно и лингвистически адаптированных тестовых наборов вместо полного reliance на переводы. В рамках этого всестороннего анализа мы выделяем шесть ключевых ограничений текущих практик многоязычной оценки, предлагаем соответствующие руководящие принципы для эффективного многоязычного тестирования и намечаем пять критически важных направлений исследований для продвижения в этой области. Наконец, мы призываем к глобальному сотрудничеству в разработке тестовых наборов, ориентированных на человека и приоритизирующих реальные приложения.
English
As large language models (LLMs) continue to advance in linguistic
capabilities, robust multilingual evaluation has become essential for promoting
equitable technological progress. This position paper examines over 2,000
multilingual (non-English) benchmarks from 148 countries, published between
2021 and 2024, to evaluate past, present, and future practices in multilingual
benchmarking. Our findings reveal that, despite significant investments
amounting to tens of millions of dollars, English remains significantly
overrepresented in these benchmarks. Additionally, most benchmarks rely on
original language content rather than translations, with the majority sourced
from high-resource countries such as China, India, Germany, the UK, and the
USA. Furthermore, a comparison of benchmark performance with human judgments
highlights notable disparities. STEM-related tasks exhibit strong correlations
with human evaluations (0.70 to 0.85), while traditional NLP tasks like
question answering (e.g., XQuAD) show much weaker correlations (0.11 to 0.30).
Moreover, translating English benchmarks into other languages proves
insufficient, as localized benchmarks demonstrate significantly higher
alignment with local human judgments (0.68) than their translated counterparts
(0.47). This underscores the importance of creating culturally and
linguistically tailored benchmarks rather than relying solely on translations.
Through this comprehensive analysis, we highlight six key limitations in
current multilingual evaluation practices, propose the guiding principles
accordingly for effective multilingual benchmarking, and outline five critical
research directions to drive progress in the field. Finally, we call for a
global collaborative effort to develop human-aligned benchmarks that prioritize
real-world applications.Summary
AI-Generated Summary