A Lição Amarga Aprendida com Mais de 2.000 Benchmarks Multilíngues
The Bitter Lesson Learned from 2,000+ Multilingual Benchmarks
April 22, 2025
Autores: Minghao Wu, Weixuan Wang, Sinuo Liu, Huifeng Yin, Xintong Wang, Yu Zhao, Chenyang Lyu, Longyue Wang, Weihua Luo, Kaifu Zhang
cs.AI
Resumo
À medida que os grandes modelos de linguagem (LLMs) continuam a avançar em suas capacidades linguísticas, a avaliação multilíngue robusta tornou-se essencial para promover um progresso tecnológico equitativo. Este artigo de posicionamento examina mais de 2.000 benchmarks multilíngues (não ingleses) de 148 países, publicados entre 2021 e 2024, para avaliar práticas passadas, presentes e futuras em benchmarking multilíngue. Nossas descobertas revelam que, apesar de investimentos significativos que totalizam dezenas de milhões de dólares, o inglês permanece substancialmente superrepresentado nesses benchmarks. Além disso, a maioria dos benchmarks depende de conteúdo original no idioma em vez de traduções, com a maior parte proveniente de países de alta disponibilidade de recursos, como China, Índia, Alemanha, Reino Unido e EUA. Adicionalmente, uma comparação do desempenho dos benchmarks com julgamentos humanos destaca disparidades notáveis. Tarefas relacionadas a STEM exibem fortes correlações com avaliações humanas (0,70 a 0,85), enquanto tarefas tradicionais de PLN, como resposta a perguntas (por exemplo, XQuAD), mostram correlações muito mais fracas (0,11 a 0,30). Além disso, a tradução de benchmarks em inglês para outros idiomas se mostra insuficiente, já que benchmarks localizados demonstram um alinhamento significativamente maior com julgamentos humanos locais (0,68) em comparação com suas contrapartes traduzidas (0,47). Isso ressalta a importância de criar benchmarks cultural e linguisticamente adaptados, em vez de depender exclusivamente de traduções. Por meio dessa análise abrangente, destacamos seis limitações principais nas práticas atuais de avaliação multilíngue, propomos os princípios orientadores para um benchmarking multilíngue eficaz e delineamos cinco direções críticas de pesquisa para impulsionar o progresso no campo. Por fim, convocamos um esforço colaborativo global para desenvolver benchmarks alinhados com os humanos que priorizem aplicações do mundo real.
English
As large language models (LLMs) continue to advance in linguistic
capabilities, robust multilingual evaluation has become essential for promoting
equitable technological progress. This position paper examines over 2,000
multilingual (non-English) benchmarks from 148 countries, published between
2021 and 2024, to evaluate past, present, and future practices in multilingual
benchmarking. Our findings reveal that, despite significant investments
amounting to tens of millions of dollars, English remains significantly
overrepresented in these benchmarks. Additionally, most benchmarks rely on
original language content rather than translations, with the majority sourced
from high-resource countries such as China, India, Germany, the UK, and the
USA. Furthermore, a comparison of benchmark performance with human judgments
highlights notable disparities. STEM-related tasks exhibit strong correlations
with human evaluations (0.70 to 0.85), while traditional NLP tasks like
question answering (e.g., XQuAD) show much weaker correlations (0.11 to 0.30).
Moreover, translating English benchmarks into other languages proves
insufficient, as localized benchmarks demonstrate significantly higher
alignment with local human judgments (0.68) than their translated counterparts
(0.47). This underscores the importance of creating culturally and
linguistically tailored benchmarks rather than relying solely on translations.
Through this comprehensive analysis, we highlight six key limitations in
current multilingual evaluation practices, propose the guiding principles
accordingly for effective multilingual benchmarking, and outline five critical
research directions to drive progress in the field. Finally, we call for a
global collaborative effort to develop human-aligned benchmarks that prioritize
real-world applications.Summary
AI-Generated Summary