Una Rassegna sui Benchmark per Modelli Linguistici di Grande Scala
A Survey on Large Language Model Benchmarks
August 21, 2025
Autori: Shiwen Ni, Guhong Chen, Shuaimin Li, Xuanang Chen, Siyi Li, Bingli Wang, Qiyao Wang, Xingjian Wang, Yifan Zhang, Liyang Fan, Chengming Li, Ruifeng Xu, Le Sun, Min Yang
cs.AI
Abstract
Negli ultimi anni, con il rapido sviluppo della profondità e dell'ampiezza delle capacità dei modelli linguistici di grandi dimensioni, sono emersi sempre più numerosi benchmark di valutazione corrispondenti. Come strumento di valutazione quantitativa delle prestazioni dei modelli, i benchmark non sono solo un mezzo fondamentale per misurare le capacità dei modelli, ma anche un elemento chiave nel guidare la direzione dello sviluppo dei modelli e nel promuovere l'innovazione tecnologica. Per la prima volta, esaminiamo sistematicamente lo stato attuale e lo sviluppo dei benchmark per i modelli linguistici di grandi dimensioni, classificando 283 benchmark rappresentativi in tre categorie: capacità generali, specifiche per dominio e specifiche per obiettivo. I benchmark di capacità generale coprono aspetti come la linguistica di base, la conoscenza e il ragionamento; i benchmark specifici per dominio si concentrano su campi come le scienze naturali, le discipline umanistiche e sociali e la tecnologia ingegneristica; i benchmark specifici per obiettivo si occupano di rischi, affidabilità, agenti, ecc. Sottolineiamo che i benchmark attuali presentano problemi come punteggi gonfiati a causa della contaminazione dei dati, valutazioni ingiuste dovute a pregiudizi culturali e linguistici, e la mancanza di valutazione sulla credibilità del processo e sugli ambienti dinamici, e forniamo un paradigma di progettazione di riferimento per l'innovazione futura dei benchmark.
English
In recent years, with the rapid development of the depth and breadth of large
language models' capabilities, various corresponding evaluation benchmarks have
been emerging in increasing numbers. As a quantitative assessment tool for
model performance, benchmarks are not only a core means to measure model
capabilities but also a key element in guiding the direction of model
development and promoting technological innovation. We systematically review
the current status and development of large language model benchmarks for the
first time, categorizing 283 representative benchmarks into three categories:
general capabilities, domain-specific, and target-specific. General capability
benchmarks cover aspects such as core linguistics, knowledge, and reasoning;
domain-specific benchmarks focus on fields like natural sciences, humanities
and social sciences, and engineering technology; target-specific benchmarks pay
attention to risks, reliability, agents, etc. We point out that current
benchmarks have problems such as inflated scores caused by data contamination,
unfair evaluation due to cultural and linguistic biases, and lack of evaluation
on process credibility and dynamic environments, and provide a referable design
paradigm for future benchmark innovation.