BenchMAX: Eine umfassende mehrsprachige Evaluierungssuite für große Sprachmodelle
BenchMAX: A Comprehensive Multilingual Evaluation Suite for Large Language Models
February 11, 2025
Autoren: Xu Huang, Wenhao Zhu, Hanxu Hu, Conghui He, Lei Li, Shujian Huang, Fei Yuan
cs.AI
Zusammenfassung
Bisherige mehrsprachige Benchmarks konzentrieren sich hauptsächlich auf einfache Verständnisaufgaben, aber für große Sprachmodelle (LLMs) legen wir den Schwerpunkt auf die Beherrschung von Anweisungen, Schlussfolgerungen, das Verstehen langer Kontexte, Codegenerierung und so weiter. Die Messung dieser fortgeschrittenen Fähigkeiten über Sprachen hinweg ist jedoch wenig erforscht. Um die Diskrepanz anzugehen, führen wir BenchMAX ein, einen mehrwegigen mehrsprachigen Evaluierungsbenchmark, der faire Vergleiche dieser wichtigen Fähigkeiten über Sprachen hinweg ermöglicht. Um eine hohe Qualität zu gewährleisten, annotieren drei verschiedene Muttersprachler unabhängig voneinander jedes Beispiel in allen Aufgaben, nachdem die Daten aus dem Englischen in 16 andere Sprachen maschinell übersetzt wurden. Darüber hinaus präsentieren wir eine neuartige Übersetzungsherausforderung, die sich aus dem Datensatzaufbau ergibt. Umfangreiche Experimente auf BenchMAX zeigen unterschiedliche Effektivität der Kernfähigkeiten über Sprachen hinweg auf und verdeutlichen Leistungslücken, die nicht einfach durch Skalierung der Modellgröße überbrückt werden können. BenchMAX dient als umfassende mehrsprachige Evaluierungsplattform und bietet ein vielversprechendes Testfeld zur Förderung der Entwicklung mehrsprachiger Sprachmodelle. Der Datensatz und der Code sind öffentlich zugänglich.
English
Previous multilingual benchmarks focus primarily on simple understanding
tasks, but for large language models(LLMs), we emphasize proficiency in
instruction following, reasoning, long context understanding, code generation,
and so on. However, measuring these advanced capabilities across languages is
underexplored. To address the disparity, we introduce BenchMAX, a multi-way
multilingual evaluation benchmark that allows for fair comparisons of these
important abilities across languages. To maintain high quality, three distinct
native-speaking annotators independently annotate each sample within all tasks
after the data was machine-translated from English into 16 other languages.
Additionally, we present a novel translation challenge stemming from dataset
construction. Extensive experiments on BenchMAX reveal varying effectiveness of
core capabilities across languages, highlighting performance gaps that cannot
be bridged by simply scaling up model size. BenchMAX serves as a comprehensive
multilingual evaluation platform, providing a promising test bed to promote the
development of multilingual language models. The dataset and code are publicly
accessible.Summary
AI-Generated Summary