ChatPaper.aiChatPaper

Benchmark^2: LLM 벤치마크의 체계적 평가

Benchmark^2: Systematic Evaluation of LLM Benchmarks

January 7, 2026
저자: Qi Qian, Chengsong Huang, Jingwen Xu, Changze Lv, Muling Wu, Wenhao Liu, Xiaohua Wang, Zhenghua Wang, Zisu Huang, Muzhao Tian, Jianhan Xu, Kun Hu, He-Da Wang, Yao Hu, Xuanjing Huang, Xiaoqing Zheng
cs.AI

초록

대규모 언어 모델(LLM) 평가를 위한 벤치마크의 급속한 확산은 벤치마크 품질 자체를 체계적으로 평가할 방법에 대한 시급한 필요성을 야기하였습니다. 본 연구에서는 상호 보완적인 세 가지 지표로 구성된 종합 프레임워크인 Benchmark^2를 제안합니다: (1) 동종 벤치마크와 일치하는 모델 순위를 생성하는지 측정하는 교차 벤치마크 순위 일관성, (2) 벤치마크가 모델 간 차별화 능력을 정량화하는 변별력 점수, (3) 동일 모델 패밀리 내에서 더 강력한 모델이 실패하고 더 약한 모델이 성공하는 문제적인 인스턴스를 식별하는 능력 정렬 편차입니다. 우리는 수학, 추론, 지식 영역에 걸친 15개 벤치마크와 4개 모델 패밀리의 11개 LLM을 대상으로 광범위한 실험을 수행했습니다. 분석 결과, 기존 벤치마크 간에 상당한 품질 편차가 존재함을 확인하고, 우리의 지표를 기반으로 한 선택적 벤치마크 구성을 통해 대폭 축소된 테스트 세트로도 비교 가능한 평가 성능을 달성할 수 있음을 입증했습니다.
English
The rapid proliferation of benchmarks for evaluating large language models (LLMs) has created an urgent need for systematic methods to assess benchmark quality itself. We propose Benchmark^2, a comprehensive framework comprising three complementary metrics: (1) Cross-Benchmark Ranking Consistency, measuring whether a benchmark produces model rankings aligned with peer benchmarks; (2) Discriminability Score, quantifying a benchmark's ability to differentiate between models; and (3) Capability Alignment Deviation, identifying problematic instances where stronger models fail but weaker models succeed within the same model family. We conduct extensive experiments across 15 benchmarks spanning mathematics, reasoning, and knowledge domains, evaluating 11 LLMs across four model families. Our analysis reveals significant quality variations among existing benchmarks and demonstrates that selective benchmark construction based on our metrics can achieve comparable evaluation performance with substantially reduced test sets.
PDF282January 9, 2026