BenchMAX: Комплексный многоязычный набор оценки для больших языковых моделей
BenchMAX: A Comprehensive Multilingual Evaluation Suite for Large Language Models
February 11, 2025
Авторы: Xu Huang, Wenhao Zhu, Hanxu Hu, Conghui He, Lei Li, Shujian Huang, Fei Yuan
cs.AI
Аннотация
Предыдущие многоязычные бенчмарки в основном сосредотачивались на простых задачах понимания, но для больших языковых моделей (LLM) мы акцентируем внимание на владении инструкциями, рассуждениях, понимании длинного контекста, генерации кода и т. д. Однако измерение этих продвинутых способностей на разных языках остается недостаточно исследованным. Для решения этого разрыва мы представляем BenchMAX - многосторонний многоязычный бенчмарк, который позволяет проводить справедливые сравнения этих важных способностей на разных языках. Для поддержания высокого качества три отдельных носителя языка независимо размечают каждый образец во всех задачах после того, как данные были машинно переведены с английского на 16 других языков. Кроме того, мы представляем новое испытание перевода, вытекающее из построения набора данных. Обширные эксперименты на BenchMAX показывают различную эффективность основных способностей на разных языках, выявляя разрывы в производительности, которые нельзя преодолеть просто увеличив размер модели. BenchMAX служит в качестве всесторонней многоязычной платформы оценки, предоставляя многообещающую площадку для развития многоязычных языковых моделей. Набор данных и код общедоступны.
English
Previous multilingual benchmarks focus primarily on simple understanding
tasks, but for large language models(LLMs), we emphasize proficiency in
instruction following, reasoning, long context understanding, code generation,
and so on. However, measuring these advanced capabilities across languages is
underexplored. To address the disparity, we introduce BenchMAX, a multi-way
multilingual evaluation benchmark that allows for fair comparisons of these
important abilities across languages. To maintain high quality, three distinct
native-speaking annotators independently annotate each sample within all tasks
after the data was machine-translated from English into 16 other languages.
Additionally, we present a novel translation challenge stemming from dataset
construction. Extensive experiments on BenchMAX reveal varying effectiveness of
core capabilities across languages, highlighting performance gaps that cannot
be bridged by simply scaling up model size. BenchMAX serves as a comprehensive
multilingual evaluation platform, providing a promising test bed to promote the
development of multilingual language models. The dataset and code are publicly
accessible.