A Lição Amarga Aprendida com Mais de 2.000 Benchmarks Multilíngues

Resumo

À medida que os grandes modelos de linguagem (LLMs) continuam a avançar em suas capacidades linguísticas, a avaliação multilíngue robusta tornou-se essencial para promover um progresso tecnológico equitativo. Este artigo de posicionamento examina mais de 2.000 benchmarks multilíngues (não ingleses) de 148 países, publicados entre 2021 e 2024, para avaliar práticas passadas, presentes e futuras em benchmarking multilíngue. Nossas descobertas revelam que, apesar de investimentos significativos que totalizam dezenas de milhões de dólares, o inglês permanece substancialmente superrepresentado nesses benchmarks. Além disso, a maioria dos benchmarks depende de conteúdo original no idioma em vez de traduções, com a maior parte proveniente de países de alta disponibilidade de recursos, como China, Índia, Alemanha, Reino Unido e EUA. Adicionalmente, uma comparação do desempenho dos benchmarks com julgamentos humanos destaca disparidades notáveis. Tarefas relacionadas a STEM exibem fortes correlações com avaliações humanas (0,70 a 0,85), enquanto tarefas tradicionais de PLN, como resposta a perguntas (por exemplo, XQuAD), mostram correlações muito mais fracas (0,11 a 0,30). Além disso, a tradução de benchmarks em inglês para outros idiomas se mostra insuficiente, já que benchmarks localizados demonstram um alinhamento significativamente maior com julgamentos humanos locais (0,68) em comparação com suas contrapartes traduzidas (0,47). Isso ressalta a importância de criar benchmarks cultural e linguisticamente adaptados, em vez de depender exclusivamente de traduções. Por meio dessa análise abrangente, destacamos seis limitações principais nas práticas atuais de avaliação multilíngue, propomos os princípios orientadores para um benchmarking multilíngue eficaz e delineamos cinco direções críticas de pesquisa para impulsionar o progresso no campo. Por fim, convocamos um esforço colaborativo global para desenvolver benchmarks alinhados com os humanos que priorizem aplicações do mundo real.

English

As large language models (LLMs) continue to advance in linguistic capabilities, robust multilingual evaluation has become essential for promoting equitable technological progress. This position paper examines over 2,000 multilingual (non-English) benchmarks from 148 countries, published between 2021 and 2024, to evaluate past, present, and future practices in multilingual benchmarking. Our findings reveal that, despite significant investments amounting to tens of millions of dollars, English remains significantly overrepresented in these benchmarks. Additionally, most benchmarks rely on original language content rather than translations, with the majority sourced from high-resource countries such as China, India, Germany, the UK, and the USA. Furthermore, a comparison of benchmark performance with human judgments highlights notable disparities. STEM-related tasks exhibit strong correlations with human evaluations (0.70 to 0.85), while traditional NLP tasks like question answering (e.g., XQuAD) show much weaker correlations (0.11 to 0.30). Moreover, translating English benchmarks into other languages proves insufficient, as localized benchmarks demonstrate significantly higher alignment with local human judgments (0.68) than their translated counterparts (0.47). This underscores the importance of creating culturally and linguistically tailored benchmarks rather than relying solely on translations. Through this comprehensive analysis, we highlight six key limitations in current multilingual evaluation practices, propose the guiding principles accordingly for effective multilingual benchmarking, and outline five critical research directions to drive progress in the field. Finally, we call for a global collaborative effort to develop human-aligned benchmarks that prioritize real-world applications.

A Lição Amarga Aprendida com Mais de 2.000 Benchmarks Multilíngues

The Bitter Lesson Learned from 2,000+ Multilingual Benchmarks

Resumo

Summary

Support

Support