La leçon difficile tirée de plus de 2 000 benchmarks multilingues
The Bitter Lesson Learned from 2,000+ Multilingual Benchmarks
April 22, 2025
Auteurs: Minghao Wu, Weixuan Wang, Sinuo Liu, Huifeng Yin, Xintong Wang, Yu Zhao, Chenyang Lyu, Longyue Wang, Weihua Luo, Kaifu Zhang
cs.AI
Résumé
Alors que les grands modèles de langage (LLM) continuent de progresser dans leurs capacités linguistiques, une évaluation multilingue robuste est devenue essentielle pour promouvoir un progrès technologique équitable. Ce document de position examine plus de 2 000 benchmarks multilingues (non anglophones) provenant de 148 pays, publiés entre 2021 et 2024, afin d'évaluer les pratiques passées, présentes et futures en matière de benchmarking multilingue. Nos résultats révèlent que, malgré des investissements significatifs atteignant des dizaines de millions de dollars, l'anglais reste largement surreprésenté dans ces benchmarks. De plus, la plupart des benchmarks s'appuient sur du contenu en langue originale plutôt que sur des traductions, avec une majorité provenant de pays disposant de ressources abondantes, tels que la Chine, l'Inde, l'Allemagne, le Royaume-Uni et les États-Unis. Par ailleurs, une comparaison des performances des benchmarks avec les jugements humains met en lumière des disparités notables. Les tâches liées aux STEM (sciences, technologie, ingénierie et mathématiques) montrent de fortes corrélations avec les évaluations humaines (0,70 à 0,85), tandis que les tâches traditionnelles de traitement du langage naturel (NLP) comme la réponse à des questions (par exemple, XQuAD) présentent des corrélations beaucoup plus faibles (0,11 à 0,30). En outre, la traduction de benchmarks anglais dans d'autres langues s'avère insuffisante, car les benchmarks localisés démontrent un alignement significativement plus élevé avec les jugements humains locaux (0,68) que leurs équivalents traduits (0,47). Cela souligne l'importance de créer des benchmarks adaptés culturellement et linguistiquement plutôt que de s'appuyer uniquement sur des traductions. À travers cette analyse approfondie, nous mettons en évidence six limitations majeures des pratiques actuelles d'évaluation multilingue, proposons les principes directeurs correspondants pour un benchmarking multilingue efficace, et esquissons cinq axes de recherche critiques pour faire progresser le domaine. Enfin, nous appelons à un effort collaboratif mondial pour développer des benchmarks alignés sur les jugements humains, en privilégiant les applications réelles.
English
As large language models (LLMs) continue to advance in linguistic
capabilities, robust multilingual evaluation has become essential for promoting
equitable technological progress. This position paper examines over 2,000
multilingual (non-English) benchmarks from 148 countries, published between
2021 and 2024, to evaluate past, present, and future practices in multilingual
benchmarking. Our findings reveal that, despite significant investments
amounting to tens of millions of dollars, English remains significantly
overrepresented in these benchmarks. Additionally, most benchmarks rely on
original language content rather than translations, with the majority sourced
from high-resource countries such as China, India, Germany, the UK, and the
USA. Furthermore, a comparison of benchmark performance with human judgments
highlights notable disparities. STEM-related tasks exhibit strong correlations
with human evaluations (0.70 to 0.85), while traditional NLP tasks like
question answering (e.g., XQuAD) show much weaker correlations (0.11 to 0.30).
Moreover, translating English benchmarks into other languages proves
insufficient, as localized benchmarks demonstrate significantly higher
alignment with local human judgments (0.68) than their translated counterparts
(0.47). This underscores the importance of creating culturally and
linguistically tailored benchmarks rather than relying solely on translations.
Through this comprehensive analysis, we highlight six key limitations in
current multilingual evaluation practices, propose the guiding principles
accordingly for effective multilingual benchmarking, and outline five critical
research directions to drive progress in the field. Finally, we call for a
global collaborative effort to develop human-aligned benchmarks that prioritize
real-world applications.