StatEval: Ein umfassender Benchmark für große Sprachmodelle in der Statistik
StatEval: A Comprehensive Benchmark for Large Language Models in Statistics
October 10, 2025
papers.authors: Yuchen Lu, Run Yang, Yichen Zhang, Shuguang Yu, Runpeng Dai, Ziwei Wang, Jiayi Xiang, Wenxin E, Siran Gao, Xinyao Ruan, Yirui Huang, Chenjing Xi, Haibo Hu, Yueming Fu, Qinglan Yu, Xiaobing Wei, Jiani Gu, Rui Sun, Jiaxuan Jia, Fan Zhou
cs.AI
papers.abstract
Große Sprachmodelle (LLMs) haben bemerkenswerte Fortschritte in mathematischem und logischem Denken gezeigt, doch die Statistik als eigenständige und integrative Disziplin bleibt in Benchmarking-Bemühungen untererforscht. Um diese Lücke zu schließen, stellen wir StatEval vor, den ersten umfassenden Benchmark, der sich der Statistik widmet und sowohl Breite als auch Tiefe über verschiedene Schwierigkeitsgrade hinweg abdeckt. StatEval besteht aus 13.817 grundlegenden Problemen, die den Lehrplan für Bachelor- und Masterstudiengänge abdecken, sowie 2374 forschungsorientierten Beweisaufgaben, die aus führenden Fachzeitschriften extrahiert wurden. Um den Benchmark zu erstellen, entwickeln wir eine skalierbare Multi-Agenten-Pipeline mit menschlicher Validierung, die die groß angelegte Extraktion, Umformulierung und Qualitätskontrolle von Problemen automatisiert und dabei akademische Strenge gewährleistet. Darüber hinaus schlagen wir ein robustes Bewertungsframework vor, das sowohl auf rechnerische als auch auf beweisbasierte Aufgaben zugeschnitten ist und eine detaillierte Bewertung der Denkfähigkeit ermöglicht. Experimentelle Ergebnisse zeigen, dass geschlossene Modelle wie GPT5-mini bei forschungsorientierten Problemen unter 57 % liegen, während Open-Source-Modelle deutlich schlechter abschneiden. Diese Erkenntnisse unterstreichen die besonderen Herausforderungen des statistischen Denkens und die Grenzen aktueller LLMs. Wir erwarten, dass StatEval als rigoroser Benchmark dienen wird, um die statistische Intelligenz in großen Sprachmodellen voranzutreiben. Alle Daten und Codes sind auf unserer Webplattform verfügbar: https://stateval.github.io/.
English
Large language models (LLMs) have demonstrated remarkable advances in
mathematical and logical reasoning, yet statistics, as a distinct and
integrative discipline, remains underexplored in benchmarking efforts. To
address this gap, we introduce StatEval, the first comprehensive
benchmark dedicated to statistics, spanning both breadth and depth across
difficulty levels. StatEval consists of 13,817 foundational problems covering
undergraduate and graduate curricula, together with 2374 research-level proof
tasks extracted from leading journals. To construct the benchmark, we design a
scalable multi-agent pipeline with human-in-the-loop validation that automates
large-scale problem extraction, rewriting, and quality control, while ensuring
academic rigor. We further propose a robust evaluation framework tailored to
both computational and proof-based tasks, enabling fine-grained assessment of
reasoning ability. Experimental results reveal that while closed-source models
such as GPT5-mini achieve below 57\% on research-level problems, with
open-source models performing significantly lower. These findings highlight the
unique challenges of statistical reasoning and the limitations of current LLMs.
We expect StatEval to serve as a rigorous benchmark for advancing statistical
intelligence in large language models. All data and code are available on our
web platform: https://stateval.github.io/.