StatEval: Un punto de referencia integral para modelos de lenguaje de gran escala en estadística
StatEval: A Comprehensive Benchmark for Large Language Models in Statistics
October 10, 2025
Autores: Yuchen Lu, Run Yang, Yichen Zhang, Shuguang Yu, Runpeng Dai, Ziwei Wang, Jiayi Xiang, Wenxin E, Siran Gao, Xinyao Ruan, Yirui Huang, Chenjing Xi, Haibo Hu, Yueming Fu, Qinglan Yu, Xiaobing Wei, Jiani Gu, Rui Sun, Jiaxuan Jia, Fan Zhou
cs.AI
Resumen
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han demostrado avances notables en razonamiento matemático y lógico, sin embargo, la estadística, como una disciplina distinta e integradora, sigue siendo poco explorada en los esfuerzos de evaluación comparativa. Para abordar esta brecha, presentamos StatEval, el primer punto de referencia integral dedicado a la estadística, que abarca tanto la amplitud como la profundidad en diferentes niveles de dificultad. StatEval consta de 13,817 problemas fundamentales que cubren los planes de estudio de pregrado y posgrado, junto con 2374 tareas de demostración a nivel de investigación extraídas de revistas líderes. Para construir este punto de referencia, diseñamos una canalización escalable de múltiples agentes con validación humana en el bucle que automatiza la extracción, reescritura y control de calidad a gran escala, asegurando al mismo tiempo el rigor académico. Además, proponemos un marco de evaluación robusto adaptado tanto a tareas computacionales como basadas en demostraciones, permitiendo una evaluación detallada de la capacidad de razonamiento. Los resultados experimentales revelan que, mientras los modelos de código cerrado como GPT5-mini obtienen menos del 57\% en problemas de nivel de investigación, los modelos de código abierto tienen un rendimiento significativamente más bajo. Estos hallazgos resaltan los desafíos únicos del razonamiento estadístico y las limitaciones de los LLMs actuales. Esperamos que StatEval sirva como un punto de referencia riguroso para avanzar en la inteligencia estadística de los modelos de lenguaje de gran escala. Todos los datos y el código están disponibles en nuestra plataforma web: https://stateval.github.io/.
English
Large language models (LLMs) have demonstrated remarkable advances in
mathematical and logical reasoning, yet statistics, as a distinct and
integrative discipline, remains underexplored in benchmarking efforts. To
address this gap, we introduce StatEval, the first comprehensive
benchmark dedicated to statistics, spanning both breadth and depth across
difficulty levels. StatEval consists of 13,817 foundational problems covering
undergraduate and graduate curricula, together with 2374 research-level proof
tasks extracted from leading journals. To construct the benchmark, we design a
scalable multi-agent pipeline with human-in-the-loop validation that automates
large-scale problem extraction, rewriting, and quality control, while ensuring
academic rigor. We further propose a robust evaluation framework tailored to
both computational and proof-based tasks, enabling fine-grained assessment of
reasoning ability. Experimental results reveal that while closed-source models
such as GPT5-mini achieve below 57\% on research-level problems, with
open-source models performing significantly lower. These findings highlight the
unique challenges of statistical reasoning and the limitations of current LLMs.
We expect StatEval to serve as a rigorous benchmark for advancing statistical
intelligence in large language models. All data and code are available on our
web platform: https://stateval.github.io/.