ChatPaper.aiChatPaper

BenchMAX: Eine umfassende mehrsprachige Evaluierungssuite für große Sprachmodelle

BenchMAX: A Comprehensive Multilingual Evaluation Suite for Large Language Models

February 11, 2025
Autoren: Xu Huang, Wenhao Zhu, Hanxu Hu, Conghui He, Lei Li, Shujian Huang, Fei Yuan
cs.AI

Zusammenfassung

Bisherige mehrsprachige Benchmarks konzentrieren sich hauptsächlich auf einfache Verständnisaufgaben, aber für große Sprachmodelle (LLMs) legen wir den Schwerpunkt auf die Beherrschung von Anweisungen, Schlussfolgerungen, das Verstehen langer Kontexte, Codegenerierung und so weiter. Die Messung dieser fortgeschrittenen Fähigkeiten über Sprachen hinweg ist jedoch wenig erforscht. Um die Diskrepanz anzugehen, führen wir BenchMAX ein, einen mehrwegigen mehrsprachigen Evaluierungsbenchmark, der faire Vergleiche dieser wichtigen Fähigkeiten über Sprachen hinweg ermöglicht. Um eine hohe Qualität zu gewährleisten, annotieren drei verschiedene Muttersprachler unabhängig voneinander jedes Beispiel in allen Aufgaben, nachdem die Daten aus dem Englischen in 16 andere Sprachen maschinell übersetzt wurden. Darüber hinaus präsentieren wir eine neuartige Übersetzungsherausforderung, die sich aus dem Datensatzaufbau ergibt. Umfangreiche Experimente auf BenchMAX zeigen unterschiedliche Effektivität der Kernfähigkeiten über Sprachen hinweg auf und verdeutlichen Leistungslücken, die nicht einfach durch Skalierung der Modellgröße überbrückt werden können. BenchMAX dient als umfassende mehrsprachige Evaluierungsplattform und bietet ein vielversprechendes Testfeld zur Förderung der Entwicklung mehrsprachiger Sprachmodelle. Der Datensatz und der Code sind öffentlich zugänglich.
English
Previous multilingual benchmarks focus primarily on simple understanding tasks, but for large language models(LLMs), we emphasize proficiency in instruction following, reasoning, long context understanding, code generation, and so on. However, measuring these advanced capabilities across languages is underexplored. To address the disparity, we introduce BenchMAX, a multi-way multilingual evaluation benchmark that allows for fair comparisons of these important abilities across languages. To maintain high quality, three distinct native-speaking annotators independently annotate each sample within all tasks after the data was machine-translated from English into 16 other languages. Additionally, we present a novel translation challenge stemming from dataset construction. Extensive experiments on BenchMAX reveal varying effectiveness of core capabilities across languages, highlighting performance gaps that cannot be bridged by simply scaling up model size. BenchMAX serves as a comprehensive multilingual evaluation platform, providing a promising test bed to promote the development of multilingual language models. The dataset and code are publicly accessible.

Summary

AI-Generated Summary

PDF542February 13, 2025