BenchMAX : une suite d'évaluation multilingue complète pour les grands modèles de langage.

papers.abstract

Les benchmarks multilingues précédents se concentrent principalement sur des tâches de compréhension simples, mais pour les grands modèles de langage (LLM), nous mettons l'accent sur la maîtrise du suivi des instructions, du raisonnement, de la compréhension de longs contextes, de la génération de code, et ainsi de suite. Cependant, la mesure de ces capacités avancées à travers les langues est peu explorée. Pour remédier à cette disparité, nous introduisons BenchMAX, un benchmark d'évaluation multilingue à plusieurs voies qui permet des comparaisons équitables de ces capacités importantes à travers les langues. Pour maintenir une qualité élevée, trois annotateurs natifs distincts annotent indépendamment chaque échantillon dans toutes les tâches après que les données ont été traduites par machine de l'anglais vers 16 autres langues. De plus, nous présentons un nouveau défi de traduction découlant de la construction de l'ensemble de données. Des expériences approfondies sur BenchMAX révèlent une efficacité variable des capacités de base à travers les langues, mettant en lumière des écarts de performance qui ne peuvent être comblés simplement en augmentant la taille du modèle. BenchMAX sert de plateforme d'évaluation multilingue complète, offrant un terrain d'essai prometteur pour promouvoir le développement de modèles de langage multilingues. L'ensemble de données et le code sont accessibles publiquement.

English

Previous multilingual benchmarks focus primarily on simple understanding tasks, but for large language models(LLMs), we emphasize proficiency in instruction following, reasoning, long context understanding, code generation, and so on. However, measuring these advanced capabilities across languages is underexplored. To address the disparity, we introduce BenchMAX, a multi-way multilingual evaluation benchmark that allows for fair comparisons of these important abilities across languages. To maintain high quality, three distinct native-speaking annotators independently annotate each sample within all tasks after the data was machine-translated from English into 16 other languages. Additionally, we present a novel translation challenge stemming from dataset construction. Extensive experiments on BenchMAX reveal varying effectiveness of core capabilities across languages, highlighting performance gaps that cannot be bridged by simply scaling up model size. BenchMAX serves as a comprehensive multilingual evaluation platform, providing a promising test bed to promote the development of multilingual language models. The dataset and code are publicly accessible.

BenchMAX : une suite d'évaluation multilingue complète pour les grands modèles de langage.

BenchMAX: A Comprehensive Multilingual Evaluation Suite for Large Language Models

papers.abstract

Support