StatEval: 통계 분야에서의 대규모 언어 모델을 위한 포괄적인 벤치마크
StatEval: A Comprehensive Benchmark for Large Language Models in Statistics
October 10, 2025
저자: Yuchen Lu, Run Yang, Yichen Zhang, Shuguang Yu, Runpeng Dai, Ziwei Wang, Jiayi Xiang, Wenxin E, Siran Gao, Xinyao Ruan, Yirui Huang, Chenjing Xi, Haibo Hu, Yueming Fu, Qinglan Yu, Xiaobing Wei, Jiani Gu, Rui Sun, Jiaxuan Jia, Fan Zhou
cs.AI
초록
대규모 언어 모델(LLM)은 수학적 및 논리적 추론에서 놀라운 진전을 보여왔지만, 통계학은 독자적이고 통합적인 학문으로서 벤치마킹 노력에서 아직 충분히 탐구되지 못했습니다. 이러한 격차를 해소하기 위해, 우리는 통계학에 전념한 첫 번째 포괄적인 벤치마크인 StatEval을 소개합니다. StatEval은 난이도에 걸쳐 폭넓고 깊이 있는 문제를 포함하며, 학부 및 대학원 커리큘럼을 아우르는 13,817개의 기초 문제와 주요 저널에서 추출한 2,374개의 연구 수준 증명 과제로 구성됩니다. 이 벤치마크를 구축하기 위해, 우리는 대규모 문제 추출, 재작성 및 품질 관리를 자동화하면서 학문적 엄격성을 보장하는 확장 가능한 다중 에이전트 파이프라인을 설계했습니다. 또한, 계산 기반 및 증명 기반 과제 모두에 맞춤화된 강력한 평가 프레임워크를 제안하여 추론 능력을 세밀하게 평가할 수 있도록 했습니다. 실험 결과, GPT5-mini와 같은 폐쇄형 모델은 연구 수준 문제에서 57% 미만의 성적을 기록했으며, 오픈소스 모델은 훨씬 낮은 성능을 보였습니다. 이러한 결과는 통계적 추론의 독특한 도전과 현재 LLM의 한계를 강조합니다. 우리는 StatEval이 대규모 언어 모델의 통계적 지능을 발전시키기 위한 엄격한 벤치마크로 활용되기를 기대합니다. 모든 데이터와 코드는 우리의 웹 플랫폼에서 확인할 수 있습니다: https://stateval.github.io/.
English
Large language models (LLMs) have demonstrated remarkable advances in
mathematical and logical reasoning, yet statistics, as a distinct and
integrative discipline, remains underexplored in benchmarking efforts. To
address this gap, we introduce StatEval, the first comprehensive
benchmark dedicated to statistics, spanning both breadth and depth across
difficulty levels. StatEval consists of 13,817 foundational problems covering
undergraduate and graduate curricula, together with 2374 research-level proof
tasks extracted from leading journals. To construct the benchmark, we design a
scalable multi-agent pipeline with human-in-the-loop validation that automates
large-scale problem extraction, rewriting, and quality control, while ensuring
academic rigor. We further propose a robust evaluation framework tailored to
both computational and proof-based tasks, enabling fine-grained assessment of
reasoning ability. Experimental results reveal that while closed-source models
such as GPT5-mini achieve below 57\% on research-level problems, with
open-source models performing significantly lower. These findings highlight the
unique challenges of statistical reasoning and the limitations of current LLMs.
We expect StatEval to serve as a rigorous benchmark for advancing statistical
intelligence in large language models. All data and code are available on our
web platform: https://stateval.github.io/.