ChatPaper.aiChatPaper

Benchmark^2: LLMベンチマークの体系的評価

Benchmark^2: Systematic Evaluation of LLM Benchmarks

January 7, 2026
著者: Qi Qian, Chengsong Huang, Jingwen Xu, Changze Lv, Muling Wu, Wenhao Liu, Xiaohua Wang, Zhenghua Wang, Zisu Huang, Muzhao Tian, Jianhan Xu, Kun Hu, He-Da Wang, Yao Hu, Xuanjing Huang, Xiaoqing Zheng
cs.AI

要旨

大規模言語モデル(LLM)を評価するためのベンチマークが急増する中、ベンチマークの品質そのものを体系的に評価する手法が緊急に求められている。本論文では、3つの相補的指標から構成される総合的な枠組み「Benchmark^2」を提案する:(1)他ベンチマークとの整合性を測る「クロスベンチマーク順位一貫性」、(2)モデル間の識別能力を定量化する「識別性スコア」、(3)同一モデルファミリー内で強力なモデルが失敗し弱いモデルが成功する問題事例を特定する「能力整合性偏差」である。数学、推論、知識領域にわたる15のベンチマークと4つのモデルファミリーに属する11のLLMを用いた大規模な実験を実施した。分析により、既存ベンチマーク間に有意な品質差が存在すること、および提案指標に基づく選択的ベンチマーク構築が、テストセットを大幅に縮小しながら同等の評価性能を達成できることを実証する。
English
The rapid proliferation of benchmarks for evaluating large language models (LLMs) has created an urgent need for systematic methods to assess benchmark quality itself. We propose Benchmark^2, a comprehensive framework comprising three complementary metrics: (1) Cross-Benchmark Ranking Consistency, measuring whether a benchmark produces model rankings aligned with peer benchmarks; (2) Discriminability Score, quantifying a benchmark's ability to differentiate between models; and (3) Capability Alignment Deviation, identifying problematic instances where stronger models fail but weaker models succeed within the same model family. We conduct extensive experiments across 15 benchmarks spanning mathematics, reasoning, and knowledge domains, evaluating 11 LLMs across four model families. Our analysis reveals significant quality variations among existing benchmarks and demonstrates that selective benchmark construction based on our metrics can achieve comparable evaluation performance with substantially reduced test sets.
PDF282January 9, 2026