BenchMAX : une suite d'évaluation multilingue complète pour les grands modèles de langage.
BenchMAX: A Comprehensive Multilingual Evaluation Suite for Large Language Models
February 11, 2025
Auteurs: Xu Huang, Wenhao Zhu, Hanxu Hu, Conghui He, Lei Li, Shujian Huang, Fei Yuan
cs.AI
Résumé
Les benchmarks multilingues précédents se concentrent principalement sur des tâches de compréhension simples, mais pour les grands modèles de langage (LLM), nous mettons l'accent sur la maîtrise du suivi des instructions, du raisonnement, de la compréhension de longs contextes, de la génération de code, et ainsi de suite. Cependant, la mesure de ces capacités avancées à travers les langues est peu explorée. Pour remédier à cette disparité, nous introduisons BenchMAX, un benchmark d'évaluation multilingue à plusieurs voies qui permet des comparaisons équitables de ces capacités importantes à travers les langues. Pour maintenir une qualité élevée, trois annotateurs natifs distincts annotent indépendamment chaque échantillon dans toutes les tâches après que les données ont été traduites par machine de l'anglais vers 16 autres langues. De plus, nous présentons un nouveau défi de traduction découlant de la construction de l'ensemble de données. Des expériences approfondies sur BenchMAX révèlent une efficacité variable des capacités de base à travers les langues, mettant en lumière des écarts de performance qui ne peuvent être comblés simplement en augmentant la taille du modèle. BenchMAX sert de plateforme d'évaluation multilingue complète, offrant un terrain d'essai prometteur pour promouvoir le développement de modèles de langage multilingues. L'ensemble de données et le code sont accessibles publiquement.
English
Previous multilingual benchmarks focus primarily on simple understanding
tasks, but for large language models(LLMs), we emphasize proficiency in
instruction following, reasoning, long context understanding, code generation,
and so on. However, measuring these advanced capabilities across languages is
underexplored. To address the disparity, we introduce BenchMAX, a multi-way
multilingual evaluation benchmark that allows for fair comparisons of these
important abilities across languages. To maintain high quality, three distinct
native-speaking annotators independently annotate each sample within all tasks
after the data was machine-translated from English into 16 other languages.
Additionally, we present a novel translation challenge stemming from dataset
construction. Extensive experiments on BenchMAX reveal varying effectiveness of
core capabilities across languages, highlighting performance gaps that cannot
be bridged by simply scaling up model size. BenchMAX serves as a comprehensive
multilingual evaluation platform, providing a promising test bed to promote the
development of multilingual language models. The dataset and code are publicly
accessible.Summary
AI-Generated Summary