StatEval: Ein umfassender Benchmark für große Sprachmodelle in der Statistik

papers.abstract

Große Sprachmodelle (LLMs) haben bemerkenswerte Fortschritte in mathematischem und logischem Denken gezeigt, doch die Statistik als eigenständige und integrative Disziplin bleibt in Benchmarking-Bemühungen untererforscht. Um diese Lücke zu schließen, stellen wir StatEval vor, den ersten umfassenden Benchmark, der sich der Statistik widmet und sowohl Breite als auch Tiefe über verschiedene Schwierigkeitsgrade hinweg abdeckt. StatEval besteht aus 13.817 grundlegenden Problemen, die den Lehrplan für Bachelor- und Masterstudiengänge abdecken, sowie 2374 forschungsorientierten Beweisaufgaben, die aus führenden Fachzeitschriften extrahiert wurden. Um den Benchmark zu erstellen, entwickeln wir eine skalierbare Multi-Agenten-Pipeline mit menschlicher Validierung, die die groß angelegte Extraktion, Umformulierung und Qualitätskontrolle von Problemen automatisiert und dabei akademische Strenge gewährleistet. Darüber hinaus schlagen wir ein robustes Bewertungsframework vor, das sowohl auf rechnerische als auch auf beweisbasierte Aufgaben zugeschnitten ist und eine detaillierte Bewertung der Denkfähigkeit ermöglicht. Experimentelle Ergebnisse zeigen, dass geschlossene Modelle wie GPT5-mini bei forschungsorientierten Problemen unter 57 % liegen, während Open-Source-Modelle deutlich schlechter abschneiden. Diese Erkenntnisse unterstreichen die besonderen Herausforderungen des statistischen Denkens und die Grenzen aktueller LLMs. Wir erwarten, dass StatEval als rigoroser Benchmark dienen wird, um die statistische Intelligenz in großen Sprachmodellen voranzutreiben. Alle Daten und Codes sind auf unserer Webplattform verfügbar: https://stateval.github.io/.

English

Large language models (LLMs) have demonstrated remarkable advances in mathematical and logical reasoning, yet statistics, as a distinct and integrative discipline, remains underexplored in benchmarking efforts. To address this gap, we introduce StatEval, the first comprehensive benchmark dedicated to statistics, spanning both breadth and depth across difficulty levels. StatEval consists of 13,817 foundational problems covering undergraduate and graduate curricula, together with 2374 research-level proof tasks extracted from leading journals. To construct the benchmark, we design a scalable multi-agent pipeline with human-in-the-loop validation that automates large-scale problem extraction, rewriting, and quality control, while ensuring academic rigor. We further propose a robust evaluation framework tailored to both computational and proof-based tasks, enabling fine-grained assessment of reasoning ability. Experimental results reveal that while closed-source models such as GPT5-mini achieve below 57\% on research-level problems, with open-source models performing significantly lower. These findings highlight the unique challenges of statistical reasoning and the limitations of current LLMs. We expect StatEval to serve as a rigorous benchmark for advancing statistical intelligence in large language models. All data and code are available on our web platform: https://stateval.github.io/.

StatEval: Ein umfassender Benchmark für große Sprachmodelle in der Statistik

StatEval: A Comprehensive Benchmark for Large Language Models in Statistics

papers.abstract

Support