ChatPaper.aiChatPaper

StatEval: Un Benchmark Completo per i Modelli Linguistici di Grande Dimensione in Statistica

StatEval: A Comprehensive Benchmark for Large Language Models in Statistics

October 10, 2025
Autori: Yuchen Lu, Run Yang, Yichen Zhang, Shuguang Yu, Runpeng Dai, Ziwei Wang, Jiayi Xiang, Wenxin E, Siran Gao, Xinyao Ruan, Yirui Huang, Chenjing Xi, Haibo Hu, Yueming Fu, Qinglan Yu, Xiaobing Wei, Jiani Gu, Rui Sun, Jiaxuan Jia, Fan Zhou
cs.AI

Abstract

I modelli linguistici di grandi dimensioni (LLM) hanno dimostrato progressi significativi nel ragionamento matematico e logico, tuttavia la statistica, come disciplina distinta e integrata, rimane poco esplorata negli sforzi di benchmarking. Per colmare questa lacuna, introduciamo StatEval, il primo benchmark completo dedicato alla statistica, che copre sia l'ampiezza che la profondità attraverso diversi livelli di difficoltà. StatEval è composto da 13.817 problemi di base che coprono i programmi universitari e di laurea magistrale, insieme a 2.374 compiti di dimostrazione di livello di ricerca estratti da riviste leader nel settore. Per costruire il benchmark, abbiamo progettato una pipeline scalabile multi-agente con validazione umana in loop che automatizza l'estrazione su larga scala dei problemi, la riscrittura e il controllo di qualità, garantendo al contempo il rigore accademico. Proponiamo inoltre un robusto framework di valutazione adattato sia ai compiti computazionali che a quelli basati su dimostrazioni, consentendo una valutazione granulare delle capacità di ragionamento. I risultati sperimentali rivelano che mentre i modelli closed-source come GPT5-mini ottengono meno del 57% sui problemi di livello di ricerca, i modelli open-source performano in modo significativamente inferiore. Questi risultati evidenziano le sfide uniche del ragionamento statistico e i limiti degli attuali LLM. Ci aspettiamo che StatEval serva come benchmark rigoroso per avanzare l'intelligenza statistica nei modelli linguistici di grandi dimensioni. Tutti i dati e il codice sono disponibili sulla nostra piattaforma web: https://stateval.github.io/.
English
Large language models (LLMs) have demonstrated remarkable advances in mathematical and logical reasoning, yet statistics, as a distinct and integrative discipline, remains underexplored in benchmarking efforts. To address this gap, we introduce StatEval, the first comprehensive benchmark dedicated to statistics, spanning both breadth and depth across difficulty levels. StatEval consists of 13,817 foundational problems covering undergraduate and graduate curricula, together with 2374 research-level proof tasks extracted from leading journals. To construct the benchmark, we design a scalable multi-agent pipeline with human-in-the-loop validation that automates large-scale problem extraction, rewriting, and quality control, while ensuring academic rigor. We further propose a robust evaluation framework tailored to both computational and proof-based tasks, enabling fine-grained assessment of reasoning ability. Experimental results reveal that while closed-source models such as GPT5-mini achieve below 57\% on research-level problems, with open-source models performing significantly lower. These findings highlight the unique challenges of statistical reasoning and the limitations of current LLMs. We expect StatEval to serve as a rigorous benchmark for advancing statistical intelligence in large language models. All data and code are available on our web platform: https://stateval.github.io/.
PDF62October 13, 2025