BenchMAX: Een uitgebreide meertalige evaluatiesuite voor grote taalmodellen
BenchMAX: A Comprehensive Multilingual Evaluation Suite for Large Language Models
February 11, 2025
Auteurs: Xu Huang, Wenhao Zhu, Hanxu Hu, Conghui He, Lei Li, Shujian Huang, Fei Yuan
cs.AI
Samenvatting
Eerdere meertalige benchmarks richten zich voornamelijk op eenvoudige begripstaken, maar voor grote taalmodellen (LLM's) benadrukken we vaardigheid in het volgen van instructies, redeneren, begrip van lange context, codegeneratie, enzovoort. Het meten van deze geavanceerde mogelijkheden over talen heen is echter onderbelicht. Om de ongelijkheid aan te pakken, introduceren we BenchMAX, een meertalige evaluatiebenchmark die het mogelijk maakt om eerlijke vergelijkingen te maken van deze belangrijke vaardigheden over talen heen. Om een hoge kwaliteit te waarborgen, annoteren drie verschillende moedertaalsprekers elk monster binnen alle taken onafhankelijk van elkaar nadat de gegevens machinaal vertaald zijn van het Engels naar 16 andere talen. Daarnaast presenteren we een nieuwe vertaaluitdaging die voortkomt uit de constructie van het dataset. Uitgebreide experimenten op BenchMAX tonen verschillende effectiviteit van kernmogelijkheden over talen heen, waarbij prestatieverschillen worden benadrukt die niet kunnen worden overbrugd door simpelweg de modelgrootte te vergroten. BenchMAX dient als een uitgebreid meertalig evaluatieplatform en biedt een veelbelovende testomgeving om de ontwikkeling van meertalige taalmodellen te bevorderen. De dataset en code zijn openbaar toegankelijk.
English
Previous multilingual benchmarks focus primarily on simple understanding
tasks, but for large language models(LLMs), we emphasize proficiency in
instruction following, reasoning, long context understanding, code generation,
and so on. However, measuring these advanced capabilities across languages is
underexplored. To address the disparity, we introduce BenchMAX, a multi-way
multilingual evaluation benchmark that allows for fair comparisons of these
important abilities across languages. To maintain high quality, three distinct
native-speaking annotators independently annotate each sample within all tasks
after the data was machine-translated from English into 16 other languages.
Additionally, we present a novel translation challenge stemming from dataset
construction. Extensive experiments on BenchMAX reveal varying effectiveness of
core capabilities across languages, highlighting performance gaps that cannot
be bridged by simply scaling up model size. BenchMAX serves as a comprehensive
multilingual evaluation platform, providing a promising test bed to promote the
development of multilingual language models. The dataset and code are publicly
accessible.Summary
AI-Generated Summary