ChatPaper.aiChatPaper

Die bittere Lektion aus über 2.000 mehrsprachigen Benchmarks

The Bitter Lesson Learned from 2,000+ Multilingual Benchmarks

April 22, 2025
Autoren: Minghao Wu, Weixuan Wang, Sinuo Liu, Huifeng Yin, Xintong Wang, Yu Zhao, Chenyang Lyu, Longyue Wang, Weihua Luo, Kaifu Zhang
cs.AI

Zusammenfassung

Da große Sprachmodelle (LLMs) ihre linguistischen Fähigkeiten weiter ausbauen, ist eine robuste mehrsprachige Evaluation unerlässlich, um einen gerechten technologischen Fortschritt zu fördern. Dieses Positionspapier untersucht über 2.000 mehrsprachige (nicht-englische) Benchmarks aus 148 Ländern, die zwischen 2021 und 2024 veröffentlicht wurden, um vergangene, gegenwärtige und zukünftige Praktiken in der mehrsprachigen Benchmarking zu bewerten. Unsere Ergebnisse zeigen, dass Englisch trotz erheblicher Investitionen in Höhe von mehreren zehn Millionen Dollar in diesen Benchmarks deutlich überrepräsentiert bleibt. Zudem basieren die meisten Benchmarks auf Originalinhalten in der jeweiligen Sprache anstatt auf Übersetzungen, wobei die Mehrheit aus ressourcenstarken Ländern wie China, Indien, Deutschland, dem Vereinigten Königreich und den USA stammt. Darüber hinaus zeigt ein Vergleich der Benchmark-Leistungen mit menschlichen Bewertungen bemerkenswerte Diskrepanzen. STEM-bezogene Aufgaben weisen starke Korrelationen mit menschlichen Bewertungen auf (0,70 bis 0,85), während traditionelle NLP-Aufgaben wie Frage-Antwort-Systeme (z. B. XQuAD) deutlich schwächere Korrelationen zeigen (0,11 bis 0,30). Außerdem erweist sich die Übersetzung englischer Benchmarks in andere Sprachen als unzureichend, da lokal angepasste Benchmarks eine signifikant höhere Übereinstimmung mit lokalen menschlichen Bewertungen aufweisen (0,68) als ihre übersetzten Gegenstücke (0,47). Dies unterstreicht die Bedeutung der Erstellung kulturell und sprachlich angepasster Benchmarks anstatt sich ausschließlich auf Übersetzungen zu verlassen. Durch diese umfassende Analyse heben wir sechs wesentliche Einschränkungen der aktuellen mehrsprachigen Evaluationspraktiken hervor, schlagen entsprechende Leitprinzipien für effektives mehrsprachiges Benchmarking vor und skizzieren fünf kritische Forschungsrichtungen, um Fortschritte in diesem Bereich voranzutreiben. Abschließend fordern wir eine globale Zusammenarbeit, um menschlich ausgerichtete Benchmarks zu entwickeln, die reale Anwendungen priorisieren.
English
As large language models (LLMs) continue to advance in linguistic capabilities, robust multilingual evaluation has become essential for promoting equitable technological progress. This position paper examines over 2,000 multilingual (non-English) benchmarks from 148 countries, published between 2021 and 2024, to evaluate past, present, and future practices in multilingual benchmarking. Our findings reveal that, despite significant investments amounting to tens of millions of dollars, English remains significantly overrepresented in these benchmarks. Additionally, most benchmarks rely on original language content rather than translations, with the majority sourced from high-resource countries such as China, India, Germany, the UK, and the USA. Furthermore, a comparison of benchmark performance with human judgments highlights notable disparities. STEM-related tasks exhibit strong correlations with human evaluations (0.70 to 0.85), while traditional NLP tasks like question answering (e.g., XQuAD) show much weaker correlations (0.11 to 0.30). Moreover, translating English benchmarks into other languages proves insufficient, as localized benchmarks demonstrate significantly higher alignment with local human judgments (0.68) than their translated counterparts (0.47). This underscores the importance of creating culturally and linguistically tailored benchmarks rather than relying solely on translations. Through this comprehensive analysis, we highlight six key limitations in current multilingual evaluation practices, propose the guiding principles accordingly for effective multilingual benchmarking, and outline five critical research directions to drive progress in the field. Finally, we call for a global collaborative effort to develop human-aligned benchmarks that prioritize real-world applications.

Summary

AI-Generated Summary

PDF612April 23, 2025