La Lezione Amara Appresa da Oltre 2.000 Benchmark Multilingue
The Bitter Lesson Learned from 2,000+ Multilingual Benchmarks
April 22, 2025
Autori: Minghao Wu, Weixuan Wang, Sinuo Liu, Huifeng Yin, Xintong Wang, Yu Zhao, Chenyang Lyu, Longyue Wang, Weihua Luo, Kaifu Zhang
cs.AI
Abstract
Man mano che i modelli linguistici di grandi dimensioni (LLM) continuano a progredire nelle capacità linguistiche, una valutazione multilingue robusta è diventata essenziale per promuovere un progresso tecnologico equo. Questo position paper esamina oltre 2.000 benchmark multilingue (non in inglese) provenienti da 148 paesi, pubblicati tra il 2021 e il 2024, per valutare le pratiche passate, presenti e future nel benchmarking multilingue. I nostri risultati rivelano che, nonostante investimenti significativi che ammontano a decine di milioni di dollari, l'inglese rimane significativamente sovrarappresentato in questi benchmark. Inoltre, la maggior parte dei benchmark si basa su contenuti in lingua originale piuttosto che su traduzioni, con la maggior parte proveniente da paesi ad alte risorse come Cina, India, Germania, Regno Unito e Stati Uniti. Inoltre, un confronto tra le prestazioni dei benchmark e i giudizi umani evidenzia notevoli disparità. I compiti legati alle discipline STEM mostrano forti correlazioni con le valutazioni umane (0,70-0,85), mentre i tradizionali compiti di NLP come il question answering (ad esempio, XQuAD) mostrano correlazioni molto più deboli (0,11-0,30). Inoltre, tradurre benchmark dall'inglese in altre lingue si rivela insufficiente, poiché i benchmark localizzati dimostrano un allineamento significativamente più alto con i giudizi umani locali (0,68) rispetto alle loro controparti tradotte (0,47). Ciò sottolinea l'importanza di creare benchmark culturalmente e linguisticamente adattati piuttosto che affidarsi esclusivamente alle traduzioni. Attraverso questa analisi completa, evidenziamo sei limitazioni chiave nelle attuali pratiche di valutazione multilingue, proponiamo i principi guida di conseguenza per un benchmarking multilingue efficace e delineiamo cinque direzioni di ricerca critiche per guidare il progresso nel campo. Infine, sollecitiamo uno sforzo collaborativo globale per sviluppare benchmark allineati agli esseri umani che diano priorità alle applicazioni nel mondo reale.
English
As large language models (LLMs) continue to advance in linguistic
capabilities, robust multilingual evaluation has become essential for promoting
equitable technological progress. This position paper examines over 2,000
multilingual (non-English) benchmarks from 148 countries, published between
2021 and 2024, to evaluate past, present, and future practices in multilingual
benchmarking. Our findings reveal that, despite significant investments
amounting to tens of millions of dollars, English remains significantly
overrepresented in these benchmarks. Additionally, most benchmarks rely on
original language content rather than translations, with the majority sourced
from high-resource countries such as China, India, Germany, the UK, and the
USA. Furthermore, a comparison of benchmark performance with human judgments
highlights notable disparities. STEM-related tasks exhibit strong correlations
with human evaluations (0.70 to 0.85), while traditional NLP tasks like
question answering (e.g., XQuAD) show much weaker correlations (0.11 to 0.30).
Moreover, translating English benchmarks into other languages proves
insufficient, as localized benchmarks demonstrate significantly higher
alignment with local human judgments (0.68) than their translated counterparts
(0.47). This underscores the importance of creating culturally and
linguistically tailored benchmarks rather than relying solely on translations.
Through this comprehensive analysis, we highlight six key limitations in
current multilingual evaluation practices, propose the guiding principles
accordingly for effective multilingual benchmarking, and outline five critical
research directions to drive progress in the field. Finally, we call for a
global collaborative effort to develop human-aligned benchmarks that prioritize
real-world applications.