ChatPaper.aiChatPaper

Benchmark^2 : Évaluation systématique des benchmarks de LLM

Benchmark^2: Systematic Evaluation of LLM Benchmarks

January 7, 2026
papers.authors: Qi Qian, Chengsong Huang, Jingwen Xu, Changze Lv, Muling Wu, Wenhao Liu, Xiaohua Wang, Zhenghua Wang, Zisu Huang, Muzhao Tian, Jianhan Xu, Kun Hu, He-Da Wang, Yao Hu, Xuanjing Huang, Xiaoqing Zheng
cs.AI

papers.abstract

La prolifération rapide des benchmarks pour évaluer les modèles de langage de grande taille (LLM) a créé un besoin urgent de méthodes systématiques pour évaluer la qualité des benchmarks eux-mêmes. Nous proposons Benchmark², un cadre complet comprenant trois métriques complémentaires : (1) la Cohérence du Classement Inter-Benchmarks, mesurant si un benchmark produit des classements de modèles alignés avec ceux des benchmarks pairs ; (2) le Score de Discriminabilité, quantifiant la capacité d'un benchmark à différencier les modèles ; et (3) l'Écart d'Alignement des Capacités, identifiant les instances problématiques où des modèles plus performants échouent alors que des modèles moins performants réussissent au sein d'une même famille de modèles. Nous menons des expériences approfondies sur 15 benchmarks couvrant les domaines des mathématiques, du raisonnement et des connaissances, en évaluant 11 LLM issus de quatre familles de modèles. Notre analyse révèle des variations significatives de qualité parmi les benchmarks existants et démontre qu'une construction sélective de benchmarks basée sur nos métriques peut atteindre des performances d'évaluation comparables avec des ensembles de test considérablement réduits.
English
The rapid proliferation of benchmarks for evaluating large language models (LLMs) has created an urgent need for systematic methods to assess benchmark quality itself. We propose Benchmark^2, a comprehensive framework comprising three complementary metrics: (1) Cross-Benchmark Ranking Consistency, measuring whether a benchmark produces model rankings aligned with peer benchmarks; (2) Discriminability Score, quantifying a benchmark's ability to differentiate between models; and (3) Capability Alignment Deviation, identifying problematic instances where stronger models fail but weaker models succeed within the same model family. We conduct extensive experiments across 15 benchmarks spanning mathematics, reasoning, and knowledge domains, evaluating 11 LLMs across four model families. Our analysis reveals significant quality variations among existing benchmarks and demonstrates that selective benchmark construction based on our metrics can achieve comparable evaluation performance with substantially reduced test sets.
PDF282January 9, 2026