ChatPaper.aiChatPaper

2,000以上の多言語ベンチマークから得られた苦い教訓

The Bitter Lesson Learned from 2,000+ Multilingual Benchmarks

April 22, 2025
著者: Minghao Wu, Weixuan Wang, Sinuo Liu, Huifeng Yin, Xintong Wang, Yu Zhao, Chenyang Lyu, Longyue Wang, Weihua Luo, Kaifu Zhang
cs.AI

要旨

大規模言語モデル(LLM)の言語能力が進化を続ける中、公平な技術進歩を促進するためには、堅牢な多言語評価が不可欠となっています。本ポジションペーパーでは、2021年から2024年にかけて148カ国で公開された2,000以上の多言語(非英語)ベンチマークを調査し、過去、現在、そして将来の多言語ベンチマークの実践を評価します。私たちの調査結果によると、数千万ドルに及ぶ多大な投資にもかかわらず、これらのベンチマークでは英語が依然として大幅に過剰に代表されています。さらに、ほとんどのベンチマークは翻訳ではなくオリジナルの言語コンテンツに依存しており、その多くは中国、インド、ドイツ、英国、米国などの高リソース国から調達されています。また、ベンチマークのパフォーマンスと人間の判断を比較すると、顕著な乖離が明らかになりました。STEM関連のタスクは人間の評価と強い相関(0.70~0.85)を示す一方で、質問応答(例:XQuAD)などの伝統的なNLPタスクでははるかに弱い相関(0.11~0.30)しか見られませんでした。さらに、英語のベンチマークを他の言語に翻訳することは不十分であり、ローカライズされたベンチマークは翻訳版(0.47)よりもローカルの人間の判断との整合性(0.68)が大幅に高くなることが示されました。これは、翻訳に頼るだけでなく、文化的・言語的に調整されたベンチマークを作成することの重要性を強調しています。この包括的な分析を通じて、現在の多言語評価実践における6つの主要な限界を指摘し、効果的な多言語ベンチマークのためのガイドラインを提案し、この分野の進歩を推進するための5つの重要な研究方向性を概説します。最後に、現実世界のアプリケーションを優先した人間と整合したベンチマークを開発するためのグローバルな協力体制を呼びかけます。
English
As large language models (LLMs) continue to advance in linguistic capabilities, robust multilingual evaluation has become essential for promoting equitable technological progress. This position paper examines over 2,000 multilingual (non-English) benchmarks from 148 countries, published between 2021 and 2024, to evaluate past, present, and future practices in multilingual benchmarking. Our findings reveal that, despite significant investments amounting to tens of millions of dollars, English remains significantly overrepresented in these benchmarks. Additionally, most benchmarks rely on original language content rather than translations, with the majority sourced from high-resource countries such as China, India, Germany, the UK, and the USA. Furthermore, a comparison of benchmark performance with human judgments highlights notable disparities. STEM-related tasks exhibit strong correlations with human evaluations (0.70 to 0.85), while traditional NLP tasks like question answering (e.g., XQuAD) show much weaker correlations (0.11 to 0.30). Moreover, translating English benchmarks into other languages proves insufficient, as localized benchmarks demonstrate significantly higher alignment with local human judgments (0.68) than their translated counterparts (0.47). This underscores the importance of creating culturally and linguistically tailored benchmarks rather than relying solely on translations. Through this comprehensive analysis, we highlight six key limitations in current multilingual evaluation practices, propose the guiding principles accordingly for effective multilingual benchmarking, and outline five critical research directions to drive progress in the field. Finally, we call for a global collaborative effort to develop human-aligned benchmarks that prioritize real-world applications.

Summary

AI-Generated Summary

PDF612April 23, 2025