Une étude sur les benchmarks des modèles de langage de grande taille

papers.abstract

Ces dernières années, avec le développement rapide de la profondeur et de l'étendue des capacités des grands modèles de langage, divers benchmarks d'évaluation correspondants ont émergé en nombre croissant. En tant qu'outil d'évaluation quantitative des performances des modèles, les benchmarks constituent non seulement un moyen central pour mesurer les capacités des modèles, mais aussi un élément clé pour orienter le développement des modèles et promouvoir l'innovation technologique. Nous passons en revue de manière systématique, pour la première fois, l'état actuel et l'évolution des benchmarks pour les grands modèles de langage, en classant 283 benchmarks représentatifs en trois catégories : capacités générales, domaines spécifiques et cibles spécifiques. Les benchmarks de capacités générales couvrent des aspects tels que la linguistique fondamentale, les connaissances et le raisonnement ; les benchmarks domaines spécifiques se concentrent sur des champs comme les sciences naturelles, les sciences humaines et sociales, et les technologies de l'ingénierie ; les benchmarks cibles spécifiques s'intéressent aux risques, à la fiabilité, aux agents, etc. Nous soulignons que les benchmarks actuels présentent des problèmes tels que des scores gonflés dus à la contamination des données, des évaluations injustes causées par des biais culturels et linguistiques, et un manque d'évaluation sur la crédibilité des processus et les environnements dynamiques, et nous proposons un paradigme de conception référentiel pour l'innovation future des benchmarks.

English

In recent years, with the rapid development of the depth and breadth of large language models' capabilities, various corresponding evaluation benchmarks have been emerging in increasing numbers. As a quantitative assessment tool for model performance, benchmarks are not only a core means to measure model capabilities but also a key element in guiding the direction of model development and promoting technological innovation. We systematically review the current status and development of large language model benchmarks for the first time, categorizing 283 representative benchmarks into three categories: general capabilities, domain-specific, and target-specific. General capability benchmarks cover aspects such as core linguistics, knowledge, and reasoning; domain-specific benchmarks focus on fields like natural sciences, humanities and social sciences, and engineering technology; target-specific benchmarks pay attention to risks, reliability, agents, etc. We point out that current benchmarks have problems such as inflated scores caused by data contamination, unfair evaluation due to cultural and linguistic biases, and lack of evaluation on process credibility and dynamic environments, and provide a referable design paradigm for future benchmark innovation.

Une étude sur les benchmarks des modèles de langage de grande taille

A Survey on Large Language Model Benchmarks

papers.abstract

Support