StatEval: Een Uitgebreide Benchmark voor Grote Taalmodellen in Statistiek
StatEval: A Comprehensive Benchmark for Large Language Models in Statistics
October 10, 2025
Auteurs: Yuchen Lu, Run Yang, Yichen Zhang, Shuguang Yu, Runpeng Dai, Ziwei Wang, Jiayi Xiang, Wenxin E, Siran Gao, Xinyao Ruan, Yirui Huang, Chenjing Xi, Haibo Hu, Yueming Fu, Qinglan Yu, Xiaobing Wei, Jiani Gu, Rui Sun, Jiaxuan Jia, Fan Zhou
cs.AI
Samenvatting
Grote taalmodellen (LLMs) hebben opmerkelijke vooruitgang geboekt in wiskundig en logisch redeneren, maar statistiek, als een aparte en integrerende discipline, blijft onderbelicht in benchmarkinspanningen. Om dit gat te dichten, introduceren we StatEval, de eerste uitgebreide benchmark die specifiek gericht is op statistiek, en die zowel breedte als diepte bestrijkt over verschillende moeilijkheidsniveaus. StatEval bestaat uit 13.817 fundamentele problemen die het bachelor- en mastercurriculum omvatten, samen met 2374 onderzoeksniveau bewijstaken die zijn geëxtraheerd uit toonaangevende tijdschriften. Om de benchmark te construeren, hebben we een schaalbare multi-agent pijplijn ontworpen met menselijke validatie in de loop, die grootschalige probleemextractie, herschrijven en kwaliteitscontrole automatiseert, terwijl academische strengheid wordt gewaarborgd. We stellen verder een robuust evaluatiekader voor dat is afgestemd op zowel computationele als bewijsgebaseerde taken, waardoor een gedetailleerde beoordeling van redeneervaardigheid mogelijk wordt. Experimentele resultaten laten zien dat gesloten modellen zoals GPT5-mini minder dan 57% halen op onderzoeksniveau problemen, terwijl open-source modellen aanzienlijk lager presteren. Deze bevindingen benadrukken de unieke uitdagingen van statistisch redeneren en de beperkingen van huidige LLMs. We verwachten dat StatEval zal dienen als een rigoureuze benchmark voor het bevorderen van statistische intelligentie in grote taalmodellen. Alle data en code zijn beschikbaar op ons webplatform: https://stateval.github.io/.
English
Large language models (LLMs) have demonstrated remarkable advances in
mathematical and logical reasoning, yet statistics, as a distinct and
integrative discipline, remains underexplored in benchmarking efforts. To
address this gap, we introduce StatEval, the first comprehensive
benchmark dedicated to statistics, spanning both breadth and depth across
difficulty levels. StatEval consists of 13,817 foundational problems covering
undergraduate and graduate curricula, together with 2374 research-level proof
tasks extracted from leading journals. To construct the benchmark, we design a
scalable multi-agent pipeline with human-in-the-loop validation that automates
large-scale problem extraction, rewriting, and quality control, while ensuring
academic rigor. We further propose a robust evaluation framework tailored to
both computational and proof-based tasks, enabling fine-grained assessment of
reasoning ability. Experimental results reveal that while closed-source models
such as GPT5-mini achieve below 57\% on research-level problems, with
open-source models performing significantly lower. These findings highlight the
unique challenges of statistical reasoning and the limitations of current LLMs.
We expect StatEval to serve as a rigorous benchmark for advancing statistical
intelligence in large language models. All data and code are available on our
web platform: https://stateval.github.io/.