ChatPaper.aiChatPaper

La Lezione Amara Appresa da Oltre 2.000 Benchmark Multilingue

The Bitter Lesson Learned from 2,000+ Multilingual Benchmarks

April 22, 2025
Autori: Minghao Wu, Weixuan Wang, Sinuo Liu, Huifeng Yin, Xintong Wang, Yu Zhao, Chenyang Lyu, Longyue Wang, Weihua Luo, Kaifu Zhang
cs.AI

Abstract

Man mano che i modelli linguistici di grandi dimensioni (LLM) continuano a progredire nelle capacità linguistiche, una valutazione multilingue robusta è diventata essenziale per promuovere un progresso tecnologico equo. Questo position paper esamina oltre 2.000 benchmark multilingue (non in inglese) provenienti da 148 paesi, pubblicati tra il 2021 e il 2024, per valutare le pratiche passate, presenti e future nel benchmarking multilingue. I nostri risultati rivelano che, nonostante investimenti significativi che ammontano a decine di milioni di dollari, l'inglese rimane significativamente sovrarappresentato in questi benchmark. Inoltre, la maggior parte dei benchmark si basa su contenuti in lingua originale piuttosto che su traduzioni, con la maggior parte proveniente da paesi ad alte risorse come Cina, India, Germania, Regno Unito e Stati Uniti. Inoltre, un confronto tra le prestazioni dei benchmark e i giudizi umani evidenzia notevoli disparità. I compiti legati alle discipline STEM mostrano forti correlazioni con le valutazioni umane (0,70-0,85), mentre i tradizionali compiti di NLP come il question answering (ad esempio, XQuAD) mostrano correlazioni molto più deboli (0,11-0,30). Inoltre, tradurre benchmark dall'inglese in altre lingue si rivela insufficiente, poiché i benchmark localizzati dimostrano un allineamento significativamente più alto con i giudizi umani locali (0,68) rispetto alle loro controparti tradotte (0,47). Ciò sottolinea l'importanza di creare benchmark culturalmente e linguisticamente adattati piuttosto che affidarsi esclusivamente alle traduzioni. Attraverso questa analisi completa, evidenziamo sei limitazioni chiave nelle attuali pratiche di valutazione multilingue, proponiamo i principi guida di conseguenza per un benchmarking multilingue efficace e delineiamo cinque direzioni di ricerca critiche per guidare il progresso nel campo. Infine, sollecitiamo uno sforzo collaborativo globale per sviluppare benchmark allineati agli esseri umani che diano priorità alle applicazioni nel mondo reale.
English
As large language models (LLMs) continue to advance in linguistic capabilities, robust multilingual evaluation has become essential for promoting equitable technological progress. This position paper examines over 2,000 multilingual (non-English) benchmarks from 148 countries, published between 2021 and 2024, to evaluate past, present, and future practices in multilingual benchmarking. Our findings reveal that, despite significant investments amounting to tens of millions of dollars, English remains significantly overrepresented in these benchmarks. Additionally, most benchmarks rely on original language content rather than translations, with the majority sourced from high-resource countries such as China, India, Germany, the UK, and the USA. Furthermore, a comparison of benchmark performance with human judgments highlights notable disparities. STEM-related tasks exhibit strong correlations with human evaluations (0.70 to 0.85), while traditional NLP tasks like question answering (e.g., XQuAD) show much weaker correlations (0.11 to 0.30). Moreover, translating English benchmarks into other languages proves insufficient, as localized benchmarks demonstrate significantly higher alignment with local human judgments (0.68) than their translated counterparts (0.47). This underscores the importance of creating culturally and linguistically tailored benchmarks rather than relying solely on translations. Through this comprehensive analysis, we highlight six key limitations in current multilingual evaluation practices, propose the guiding principles accordingly for effective multilingual benchmarking, and outline five critical research directions to drive progress in the field. Finally, we call for a global collaborative effort to develop human-aligned benchmarks that prioritize real-world applications.
PDF642April 23, 2025