BenchMAX: una suite di valutazione multilingue completa per modelli linguistici di grandi dimensioni
BenchMAX: A Comprehensive Multilingual Evaluation Suite for Large Language Models
February 11, 2025
Autori: Xu Huang, Wenhao Zhu, Hanxu Hu, Conghui He, Lei Li, Shujian Huang, Fei Yuan
cs.AI
Abstract
I benchmark multilingue precedenti si concentrano principalmente su compiti di comprensione semplici, ma per i grandi modelli linguistici (LLM), sottolineiamo la competenza nel seguire istruzioni, nel ragionamento, nella comprensione del contesto a lungo termine, nella generazione di codice, e così via. Tuttavia, la misurazione di queste capacità avanzate tra le lingue è poco esplorata. Per affrontare la disparità, presentiamo BenchMAX, un benchmark di valutazione multilingue a più vie che consente confronti equi di queste importanti abilità tra le lingue. Per mantenere l'alta qualità, tre distinti annotatori madrelingua annotano indipendentemente ciascun campione all'interno di tutti i compiti dopo che i dati sono stati tradotti automaticamente dall'inglese in altre 16 lingue. Inoltre, presentiamo una sfida di traduzione innovativa derivante dalla costruzione del dataset. Gli ampi esperimenti su BenchMAX rivelano un'efficacia variabile delle capacità fondamentali tra le lingue, evidenziando divari di prestazioni che non possono essere colmati semplicemente aumentando le dimensioni del modello. BenchMAX funge da piattaforma di valutazione multilingue completa, offrendo un promettente banco di prova per promuovere lo sviluppo di modelli linguistici multilingue. Il dataset e il codice sono accessibili pubblicamente.
English
Previous multilingual benchmarks focus primarily on simple understanding
tasks, but for large language models(LLMs), we emphasize proficiency in
instruction following, reasoning, long context understanding, code generation,
and so on. However, measuring these advanced capabilities across languages is
underexplored. To address the disparity, we introduce BenchMAX, a multi-way
multilingual evaluation benchmark that allows for fair comparisons of these
important abilities across languages. To maintain high quality, three distinct
native-speaking annotators independently annotate each sample within all tasks
after the data was machine-translated from English into 16 other languages.
Additionally, we present a novel translation challenge stemming from dataset
construction. Extensive experiments on BenchMAX reveal varying effectiveness of
core capabilities across languages, highlighting performance gaps that cannot
be bridged by simply scaling up model size. BenchMAX serves as a comprehensive
multilingual evaluation platform, providing a promising test bed to promote the
development of multilingual language models. The dataset and code are publicly
accessible.Summary
AI-Generated Summary