StatEval: 統計学における大規模言語モデルのための包括的ベンチマーク
StatEval: A Comprehensive Benchmark for Large Language Models in Statistics
October 10, 2025
著者: Yuchen Lu, Run Yang, Yichen Zhang, Shuguang Yu, Runpeng Dai, Ziwei Wang, Jiayi Xiang, Wenxin E, Siran Gao, Xinyao Ruan, Yirui Huang, Chenjing Xi, Haibo Hu, Yueming Fu, Qinglan Yu, Xiaobing Wei, Jiani Gu, Rui Sun, Jiaxuan Jia, Fan Zhou
cs.AI
要旨
大規模言語モデル(LLM)は数学的・論理的推論において顕著な進歩を示してきたが、統計学という独自かつ統合的な学問分野は、ベンチマークの取り組みにおいて未だ十分に探索されていない。このギャップを埋めるため、我々はStatEvalを導入する。これは統計学に特化した初の包括的ベンチマークであり、難易度レベルにわたる広範かつ深い範囲をカバーしている。StatEvalは、学部および大学院のカリキュラムを網羅する13,817の基礎問題と、主要な学術誌から抽出した2,374の研究レベルの証明課題で構成されている。このベンチマークを構築するために、我々は人間をループに組み込んだ検証を伴うスケーラブルなマルチエージェントパイプラインを設計し、大規模な問題の抽出、書き換え、品質管理を自動化しながら、学術的厳密性を確保した。さらに、計算ベースおよび証明ベースの課題に特化した堅牢な評価フレームワークを提案し、推論能力の詳細な評価を可能にした。実験結果によると、GPT5-miniのようなクローズドソースモデルは研究レベルの問題で57%未満の成績を収め、オープンソースモデルはさらに低い性能を示した。これらの結果は、統計的推論の独自の課題と、現在のLLMの限界を浮き彫りにしている。我々は、StatEvalが大規模言語モデルにおける統計的知能を進展させるための厳格なベンチマークとして機能することを期待している。すべてのデータとコードはウェブプラットフォームで公開されている: https://stateval.github.io/。
English
Large language models (LLMs) have demonstrated remarkable advances in
mathematical and logical reasoning, yet statistics, as a distinct and
integrative discipline, remains underexplored in benchmarking efforts. To
address this gap, we introduce StatEval, the first comprehensive
benchmark dedicated to statistics, spanning both breadth and depth across
difficulty levels. StatEval consists of 13,817 foundational problems covering
undergraduate and graduate curricula, together with 2374 research-level proof
tasks extracted from leading journals. To construct the benchmark, we design a
scalable multi-agent pipeline with human-in-the-loop validation that automates
large-scale problem extraction, rewriting, and quality control, while ensuring
academic rigor. We further propose a robust evaluation framework tailored to
both computational and proof-based tasks, enabling fine-grained assessment of
reasoning ability. Experimental results reveal that while closed-source models
such as GPT5-mini achieve below 57\% on research-level problems, with
open-source models performing significantly lower. These findings highlight the
unique challenges of statistical reasoning and the limitations of current LLMs.
We expect StatEval to serve as a rigorous benchmark for advancing statistical
intelligence in large language models. All data and code are available on our
web platform: https://stateval.github.io/.