BenchMAX: Комплексный многоязычный набор оценки для больших языковых моделей

Аннотация

Предыдущие многоязычные бенчмарки в основном сосредотачивались на простых задачах понимания, но для больших языковых моделей (LLM) мы акцентируем внимание на владении инструкциями, рассуждениях, понимании длинного контекста, генерации кода и т. д. Однако измерение этих продвинутых способностей на разных языках остается недостаточно исследованным. Для решения этого разрыва мы представляем BenchMAX - многосторонний многоязычный бенчмарк, который позволяет проводить справедливые сравнения этих важных способностей на разных языках. Для поддержания высокого качества три отдельных носителя языка независимо размечают каждый образец во всех задачах после того, как данные были машинно переведены с английского на 16 других языков. Кроме того, мы представляем новое испытание перевода, вытекающее из построения набора данных. Обширные эксперименты на BenchMAX показывают различную эффективность основных способностей на разных языках, выявляя разрывы в производительности, которые нельзя преодолеть просто увеличив размер модели. BenchMAX служит в качестве всесторонней многоязычной платформы оценки, предоставляя многообещающую площадку для развития многоязычных языковых моделей. Набор данных и код общедоступны.

English

Previous multilingual benchmarks focus primarily on simple understanding tasks, but for large language models(LLMs), we emphasize proficiency in instruction following, reasoning, long context understanding, code generation, and so on. However, measuring these advanced capabilities across languages is underexplored. To address the disparity, we introduce BenchMAX, a multi-way multilingual evaluation benchmark that allows for fair comparisons of these important abilities across languages. To maintain high quality, three distinct native-speaking annotators independently annotate each sample within all tasks after the data was machine-translated from English into 16 other languages. Additionally, we present a novel translation challenge stemming from dataset construction. Extensive experiments on BenchMAX reveal varying effectiveness of core capabilities across languages, highlighting performance gaps that cannot be bridged by simply scaling up model size. BenchMAX serves as a comprehensive multilingual evaluation platform, providing a promising test bed to promote the development of multilingual language models. The dataset and code are publicly accessible.

BenchMAX: Комплексный многоязычный набор оценки для больших языковых моделей

BenchMAX: A Comprehensive Multilingual Evaluation Suite for Large Language Models

Аннотация

Support