StatEval: Комплексный эталонный тест для больших языковых моделей в области статистики
StatEval: A Comprehensive Benchmark for Large Language Models in Statistics
October 10, 2025
Авторы: Yuchen Lu, Run Yang, Yichen Zhang, Shuguang Yu, Runpeng Dai, Ziwei Wang, Jiayi Xiang, Wenxin E, Siran Gao, Xinyao Ruan, Yirui Huang, Chenjing Xi, Haibo Hu, Yueming Fu, Qinglan Yu, Xiaobing Wei, Jiani Gu, Rui Sun, Jiaxuan Jia, Fan Zhou
cs.AI
Аннотация
Крупные языковые модели (LLMs) продемонстрировали значительные успехи в математическом и логическом мышлении, однако статистика, как отдельная и интегративная дисциплина, остается недостаточно изученной в рамках бенчмаркинговых усилий. Чтобы устранить этот пробел, мы представляем StatEval — первый всеобъемлющий бенчмарк, посвященный статистике, охватывающий как широту, так и глубину задач на различных уровнях сложности. StatEval включает 13 817 базовых задач, охватывающих программы бакалавриата и магистратуры, а также 2374 задачи уровня исследований, извлеченные из ведущих журналов. Для создания бенчмарка мы разработали масштабируемый многозадачный конвейер с участием человека в цикле проверки, который автоматизирует крупномасштабное извлечение, переработку и контроль качества задач, обеспечивая при этом академическую строгость. Мы также предлагаем надежную систему оценки, адаптированную как для вычислительных, так и для доказательных задач, что позволяет проводить детальный анализ способности к рассуждению. Экспериментальные результаты показывают, что закрытые модели, такие как GPT5-mini, справляются с задачами уровня исследований менее чем на 57%, а открытые модели демонстрируют значительно более низкие результаты. Эти данные подчеркивают уникальные сложности статистического мышления и ограничения современных LLM. Мы ожидаем, что StatEval станет строгим бенчмарком для развития статистического интеллекта в крупных языковых моделях. Все данные и код доступны на нашей веб-платформе: https://stateval.github.io/.
English
Large language models (LLMs) have demonstrated remarkable advances in
mathematical and logical reasoning, yet statistics, as a distinct and
integrative discipline, remains underexplored in benchmarking efforts. To
address this gap, we introduce StatEval, the first comprehensive
benchmark dedicated to statistics, spanning both breadth and depth across
difficulty levels. StatEval consists of 13,817 foundational problems covering
undergraduate and graduate curricula, together with 2374 research-level proof
tasks extracted from leading journals. To construct the benchmark, we design a
scalable multi-agent pipeline with human-in-the-loop validation that automates
large-scale problem extraction, rewriting, and quality control, while ensuring
academic rigor. We further propose a robust evaluation framework tailored to
both computational and proof-based tasks, enabling fine-grained assessment of
reasoning ability. Experimental results reveal that while closed-source models
such as GPT5-mini achieve below 57\% on research-level problems, with
open-source models performing significantly lower. These findings highlight the
unique challenges of statistical reasoning and the limitations of current LLMs.
We expect StatEval to serve as a rigorous benchmark for advancing statistical
intelligence in large language models. All data and code are available on our
web platform: https://stateval.github.io/.