StatEval: Um Benchmark Abrangente para Modelos de Linguagem de Grande Escala em Estatística
StatEval: A Comprehensive Benchmark for Large Language Models in Statistics
October 10, 2025
Autores: Yuchen Lu, Run Yang, Yichen Zhang, Shuguang Yu, Runpeng Dai, Ziwei Wang, Jiayi Xiang, Wenxin E, Siran Gao, Xinyao Ruan, Yirui Huang, Chenjing Xi, Haibo Hu, Yueming Fu, Qinglan Yu, Xiaobing Wei, Jiani Gu, Rui Sun, Jiaxuan Jia, Fan Zhou
cs.AI
Resumo
Os modelos de linguagem de grande escala (LLMs) demonstraram avanços notáveis no raciocínio matemático e lógico, porém a estatística, como uma disciplina distinta e integrativa, permanece pouco explorada nos esforços de benchmark. Para abordar essa lacuna, introduzimos o StatEval, o primeiro benchmark abrangente dedicado à estatística, abrangendo tanto a amplitude quanto a profundidade em diferentes níveis de dificuldade. O StatEval consiste em 13.817 problemas fundamentais que cobrem os currículos de graduação e pós-graduação, juntamente com 2.374 tarefas de prova em nível de pesquisa extraídas de periódicos líderes. Para construir o benchmark, projetamos um pipeline escalável de múltiplos agentes com validação humana no loop que automatiza a extração em larga escala, a reformulação e o controle de qualidade dos problemas, garantindo o rigor acadêmico. Além disso, propomos um framework robusto de avaliação adaptado tanto para tarefas computacionais quanto baseadas em provas, permitindo uma avaliação detalhada da capacidade de raciocínio. Os resultados experimentais revelam que, embora modelos proprietários como o GPT5-mini atinjam menos de 57% nos problemas de nível de pesquisa, os modelos de código aberto apresentam desempenho significativamente inferior. Esses achados destacam os desafios únicos do raciocínio estatístico e as limitações dos LLMs atuais. Esperamos que o StatEval sirva como um benchmark rigoroso para avançar a inteligência estatística em modelos de linguagem de grande escala. Todos os dados e códigos estão disponíveis em nossa plataforma web: https://stateval.github.io/.
English
Large language models (LLMs) have demonstrated remarkable advances in
mathematical and logical reasoning, yet statistics, as a distinct and
integrative discipline, remains underexplored in benchmarking efforts. To
address this gap, we introduce StatEval, the first comprehensive
benchmark dedicated to statistics, spanning both breadth and depth across
difficulty levels. StatEval consists of 13,817 foundational problems covering
undergraduate and graduate curricula, together with 2374 research-level proof
tasks extracted from leading journals. To construct the benchmark, we design a
scalable multi-agent pipeline with human-in-the-loop validation that automates
large-scale problem extraction, rewriting, and quality control, while ensuring
academic rigor. We further propose a robust evaluation framework tailored to
both computational and proof-based tasks, enabling fine-grained assessment of
reasoning ability. Experimental results reveal that while closed-source models
such as GPT5-mini achieve below 57\% on research-level problems, with
open-source models performing significantly lower. These findings highlight the
unique challenges of statistical reasoning and the limitations of current LLMs.
We expect StatEval to serve as a rigorous benchmark for advancing statistical
intelligence in large language models. All data and code are available on our
web platform: https://stateval.github.io/.