Une étude sur les benchmarks des modèles de langage de grande taille
A Survey on Large Language Model Benchmarks
August 21, 2025
papers.authors: Shiwen Ni, Guhong Chen, Shuaimin Li, Xuanang Chen, Siyi Li, Bingli Wang, Qiyao Wang, Xingjian Wang, Yifan Zhang, Liyang Fan, Chengming Li, Ruifeng Xu, Le Sun, Min Yang
cs.AI
papers.abstract
Ces dernières années, avec le développement rapide de la profondeur et de l'étendue des capacités des grands modèles de langage, divers benchmarks d'évaluation correspondants ont émergé en nombre croissant. En tant qu'outil d'évaluation quantitative des performances des modèles, les benchmarks constituent non seulement un moyen central pour mesurer les capacités des modèles, mais aussi un élément clé pour orienter le développement des modèles et promouvoir l'innovation technologique. Nous passons en revue de manière systématique, pour la première fois, l'état actuel et l'évolution des benchmarks pour les grands modèles de langage, en classant 283 benchmarks représentatifs en trois catégories : capacités générales, domaines spécifiques et cibles spécifiques. Les benchmarks de capacités générales couvrent des aspects tels que la linguistique fondamentale, les connaissances et le raisonnement ; les benchmarks domaines spécifiques se concentrent sur des champs comme les sciences naturelles, les sciences humaines et sociales, et les technologies de l'ingénierie ; les benchmarks cibles spécifiques s'intéressent aux risques, à la fiabilité, aux agents, etc. Nous soulignons que les benchmarks actuels présentent des problèmes tels que des scores gonflés dus à la contamination des données, des évaluations injustes causées par des biais culturels et linguistiques, et un manque d'évaluation sur la crédibilité des processus et les environnements dynamiques, et nous proposons un paradigme de conception référentiel pour l'innovation future des benchmarks.
English
In recent years, with the rapid development of the depth and breadth of large
language models' capabilities, various corresponding evaluation benchmarks have
been emerging in increasing numbers. As a quantitative assessment tool for
model performance, benchmarks are not only a core means to measure model
capabilities but also a key element in guiding the direction of model
development and promoting technological innovation. We systematically review
the current status and development of large language model benchmarks for the
first time, categorizing 283 representative benchmarks into three categories:
general capabilities, domain-specific, and target-specific. General capability
benchmarks cover aspects such as core linguistics, knowledge, and reasoning;
domain-specific benchmarks focus on fields like natural sciences, humanities
and social sciences, and engineering technology; target-specific benchmarks pay
attention to risks, reliability, agents, etc. We point out that current
benchmarks have problems such as inflated scores caused by data contamination,
unfair evaluation due to cultural and linguistic biases, and lack of evaluation
on process credibility and dynamic environments, and provide a referable design
paradigm for future benchmark innovation.