Горький урок, извлеченный из более чем 2000 многоязычных тестов

Аннотация

По мере того как крупные языковые модели (LLM) продолжают совершенствовать свои лингвистические способности, надежная многоязычная оценка становится важным элементом для обеспечения справедливого технологического прогресса. В данной аналитической статье рассматривается более 2000 многоязычных (неанглоязычных) тестовых наборов из 148 стран, опубликованных в период с 2021 по 2024 год, с целью оценки прошлых, текущих и будущих практик в области многоязычного тестирования. Наши результаты показывают, что, несмотря на значительные инвестиции, исчисляемые десятками миллионов долларов, английский язык остается существенно перепредставленным в этих тестовых наборах. Кроме того, большинство наборов данных опираются на оригинальные тексты, а не на переводы, причем основная их часть поступает из стран с высоким уровнем ресурсов, таких как Китай, Индия, Германия, Великобритания и США. Более того, сравнение результатов тестовых наборов с оценками людей выявляет заметные расхождения. Задачи, связанные с STEM, демонстрируют сильную корреляцию с человеческими оценками (0,70–0,85), тогда как традиционные задачи NLP, такие как ответы на вопросы (например, XQuAD), показывают гораздо более слабую корреляцию (0,11–0,30). Кроме того, перевод англоязычных тестовых наборов на другие языки оказывается недостаточным, поскольку локализованные наборы данных демонстрируют значительно более высокое соответствие локальным человеческим оценкам (0,68) по сравнению с их переведенными аналогами (0,47). Это подчеркивает важность создания культурно и лингвистически адаптированных тестовых наборов вместо полного reliance на переводы. В рамках этого всестороннего анализа мы выделяем шесть ключевых ограничений текущих практик многоязычной оценки, предлагаем соответствующие руководящие принципы для эффективного многоязычного тестирования и намечаем пять критически важных направлений исследований для продвижения в этой области. Наконец, мы призываем к глобальному сотрудничеству в разработке тестовых наборов, ориентированных на человека и приоритизирующих реальные приложения.

English

As large language models (LLMs) continue to advance in linguistic capabilities, robust multilingual evaluation has become essential for promoting equitable technological progress. This position paper examines over 2,000 multilingual (non-English) benchmarks from 148 countries, published between 2021 and 2024, to evaluate past, present, and future practices in multilingual benchmarking. Our findings reveal that, despite significant investments amounting to tens of millions of dollars, English remains significantly overrepresented in these benchmarks. Additionally, most benchmarks rely on original language content rather than translations, with the majority sourced from high-resource countries such as China, India, Germany, the UK, and the USA. Furthermore, a comparison of benchmark performance with human judgments highlights notable disparities. STEM-related tasks exhibit strong correlations with human evaluations (0.70 to 0.85), while traditional NLP tasks like question answering (e.g., XQuAD) show much weaker correlations (0.11 to 0.30). Moreover, translating English benchmarks into other languages proves insufficient, as localized benchmarks demonstrate significantly higher alignment with local human judgments (0.68) than their translated counterparts (0.47). This underscores the importance of creating culturally and linguistically tailored benchmarks rather than relying solely on translations. Through this comprehensive analysis, we highlight six key limitations in current multilingual evaluation practices, propose the guiding principles accordingly for effective multilingual benchmarking, and outline five critical research directions to drive progress in the field. Finally, we call for a global collaborative effort to develop human-aligned benchmarks that prioritize real-world applications.

Горький урок, извлеченный из более чем 2000 многоязычных тестов

The Bitter Lesson Learned from 2,000+ Multilingual Benchmarks

Аннотация

Support