StatEval : Un Benchmark Complet pour les Modèles de Langage à Grande Échelle en Statistiques
StatEval: A Comprehensive Benchmark for Large Language Models in Statistics
October 10, 2025
papers.authors: Yuchen Lu, Run Yang, Yichen Zhang, Shuguang Yu, Runpeng Dai, Ziwei Wang, Jiayi Xiang, Wenxin E, Siran Gao, Xinyao Ruan, Yirui Huang, Chenjing Xi, Haibo Hu, Yueming Fu, Qinglan Yu, Xiaobing Wei, Jiani Gu, Rui Sun, Jiaxuan Jia, Fan Zhou
cs.AI
papers.abstract
Les grands modèles de langage (LLMs) ont démontré des avancées remarquables en raisonnement mathématique et logique, mais les statistiques, en tant que discipline distincte et intégrative, restent sous-explorées dans les efforts de benchmarking. Pour combler cette lacune, nous introduisons StatEval, le premier benchmark complet dédié aux statistiques, couvrant à la fois l'étendue et la profondeur à travers différents niveaux de difficulté. StatEval se compose de 13 817 problèmes fondamentaux couvrant les programmes de licence et de master, ainsi que de 2374 tâches de preuve de niveau recherche extraites de revues scientifiques de premier plan. Pour construire ce benchmark, nous concevons un pipeline multi-agent évolutif avec validation humaine en boucle, automatisant l'extraction à grande échelle, la réécriture et le contrôle qualité des problèmes, tout en garantissant la rigueur académique. Nous proposons en outre un cadre d'évaluation robuste adapté à la fois aux tâches computationnelles et basées sur des preuves, permettant une évaluation fine des capacités de raisonnement. Les résultats expérimentaux révèlent que si les modèles propriétaires tels que GPT5-mini obtiennent moins de 57 % sur les problèmes de niveau recherche, les modèles open-source performent significativement moins bien. Ces résultats mettent en lumière les défis uniques du raisonnement statistique et les limites des LLMs actuels. Nous espérons que StatEval servira de benchmark rigoureux pour faire progresser l'intelligence statistique dans les grands modèles de langage. Toutes les données et le code sont disponibles sur notre plateforme web : https://stateval.github.io/.
English
Large language models (LLMs) have demonstrated remarkable advances in
mathematical and logical reasoning, yet statistics, as a distinct and
integrative discipline, remains underexplored in benchmarking efforts. To
address this gap, we introduce StatEval, the first comprehensive
benchmark dedicated to statistics, spanning both breadth and depth across
difficulty levels. StatEval consists of 13,817 foundational problems covering
undergraduate and graduate curricula, together with 2374 research-level proof
tasks extracted from leading journals. To construct the benchmark, we design a
scalable multi-agent pipeline with human-in-the-loop validation that automates
large-scale problem extraction, rewriting, and quality control, while ensuring
academic rigor. We further propose a robust evaluation framework tailored to
both computational and proof-based tasks, enabling fine-grained assessment of
reasoning ability. Experimental results reveal that while closed-source models
such as GPT5-mini achieve below 57\% on research-level problems, with
open-source models performing significantly lower. These findings highlight the
unique challenges of statistical reasoning and the limitations of current LLMs.
We expect StatEval to serve as a rigorous benchmark for advancing statistical
intelligence in large language models. All data and code are available on our
web platform: https://stateval.github.io/.