StatEval: Un punto de referencia integral para modelos de lenguaje de gran escala en estadística

Resumen

Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han demostrado avances notables en razonamiento matemático y lógico, sin embargo, la estadística, como una disciplina distinta e integradora, sigue siendo poco explorada en los esfuerzos de evaluación comparativa. Para abordar esta brecha, presentamos StatEval, el primer punto de referencia integral dedicado a la estadística, que abarca tanto la amplitud como la profundidad en diferentes niveles de dificultad. StatEval consta de 13,817 problemas fundamentales que cubren los planes de estudio de pregrado y posgrado, junto con 2374 tareas de demostración a nivel de investigación extraídas de revistas líderes. Para construir este punto de referencia, diseñamos una canalización escalable de múltiples agentes con validación humana en el bucle que automatiza la extracción, reescritura y control de calidad a gran escala, asegurando al mismo tiempo el rigor académico. Además, proponemos un marco de evaluación robusto adaptado tanto a tareas computacionales como basadas en demostraciones, permitiendo una evaluación detallada de la capacidad de razonamiento. Los resultados experimentales revelan que, mientras los modelos de código cerrado como GPT5-mini obtienen menos del 57\% en problemas de nivel de investigación, los modelos de código abierto tienen un rendimiento significativamente más bajo. Estos hallazgos resaltan los desafíos únicos del razonamiento estadístico y las limitaciones de los LLMs actuales. Esperamos que StatEval sirva como un punto de referencia riguroso para avanzar en la inteligencia estadística de los modelos de lenguaje de gran escala. Todos los datos y el código están disponibles en nuestra plataforma web: https://stateval.github.io/.

English

Large language models (LLMs) have demonstrated remarkable advances in mathematical and logical reasoning, yet statistics, as a distinct and integrative discipline, remains underexplored in benchmarking efforts. To address this gap, we introduce StatEval, the first comprehensive benchmark dedicated to statistics, spanning both breadth and depth across difficulty levels. StatEval consists of 13,817 foundational problems covering undergraduate and graduate curricula, together with 2374 research-level proof tasks extracted from leading journals. To construct the benchmark, we design a scalable multi-agent pipeline with human-in-the-loop validation that automates large-scale problem extraction, rewriting, and quality control, while ensuring academic rigor. We further propose a robust evaluation framework tailored to both computational and proof-based tasks, enabling fine-grained assessment of reasoning ability. Experimental results reveal that while closed-source models such as GPT5-mini achieve below 57\% on research-level problems, with open-source models performing significantly lower. These findings highlight the unique challenges of statistical reasoning and the limitations of current LLMs. We expect StatEval to serve as a rigorous benchmark for advancing statistical intelligence in large language models. All data and code are available on our web platform: https://stateval.github.io/.

StatEval: Un punto de referencia integral para modelos de lenguaje de gran escala en estadística

StatEval: A Comprehensive Benchmark for Large Language Models in Statistics

Resumen

Support