Repousser les limites du raisonnement : un benchmark de niveau olympiade en mathématiques pour les grands modèles de langage
Challenging the Boundaries of Reasoning: An Olympiad-Level Math Benchmark for Large Language Models
March 27, 2025
Auteurs: Haoxiang Sun, Yingqian Min, Zhipeng Chen, Wayne Xin Zhao, Zheng Liu, Zhongyuan Wang, Lei Fang, Ji-Rong Wen
cs.AI
Résumé
Ces dernières années, le développement rapide des grands modèles de raisonnement a entraîné la saturation des benchmarks existants pour l'évaluation du raisonnement mathématique, mettant en lumière le besoin urgent de cadres d'évaluation plus exigeants et rigoureux. Pour combler cette lacune, nous présentons OlymMATH, un nouveau benchmark mathématique de niveau Olympiade, conçu pour tester rigoureusement les capacités de raisonnement complexe des LLM. OlymMATH propose 200 problèmes soigneusement sélectionnés, chacun vérifié manuellement et disponible en versions parallèles en anglais et en chinois. Les problèmes sont systématiquement organisés en deux niveaux de difficulté distincts : (1) des problèmes de niveau AIME (faciles) qui établissent une base pour l'évaluation du raisonnement mathématique, et (2) des problèmes nettement plus difficiles conçus pour repousser les limites des modèles actuels les plus avancés. Dans notre benchmark, ces problèmes couvrent quatre domaines mathématiques fondamentaux, chacun incluant une solution numérique vérifiable pour permettre une évaluation objective et basée sur des règles. Les résultats empiriques soulignent le défi significatif posé par OlymMATH, avec des modèles de pointe tels que DeepSeek-R1 et o3-mini d'OpenAI montrant une précision notablement limitée sur le sous-ensemble difficile. De plus, le benchmark facilite une évaluation bilingue complète des capacités de raisonnement mathématique - une dimension critique qui reste largement négligée dans les benchmarks de raisonnement mathématique grand public. Nous publions le benchmark OlymMATH dans le cadre du projet STILL : https://github.com/RUCAIBox/Slow_Thinking_with_LLMs.
English
In recent years, the rapid development of large reasoning models has resulted
in the saturation of existing benchmarks for evaluating mathematical reasoning,
highlighting the urgent need for more challenging and rigorous evaluation
frameworks. To address this gap, we introduce OlymMATH, a novel Olympiad-level
mathematical benchmark, designed to rigorously test the complex reasoning
capabilities of LLMs. OlymMATH features 200 meticulously curated problems, each
manually verified and available in parallel English and Chinese versions. The
problems are systematically organized into two distinct difficulty tiers: (1)
AIME-level problems (easy) that establish a baseline for mathematical reasoning
assessment, and (2) significantly more challenging problems (hard) designed to
push the boundaries of current state-of-the-art models. In our benchmark, these
problems span four core mathematical fields, each including a verifiable
numerical solution to enable objective, rule-based evaluation. Empirical
results underscore the significant challenge presented by OlymMATH, with
state-of-the-art models including DeepSeek-R1 and OpenAI's o3-mini
demonstrating notably limited accuracy on the hard subset. Furthermore, the
benchmark facilitates comprehensive bilingual assessment of mathematical
reasoning abilities-a critical dimension that remains largely unaddressed in
mainstream mathematical reasoning benchmarks. We release the OlymMATH benchmark
at the STILL project: https://github.com/RUCAIBox/Slow_Thinking_with_LLMs.Summary
AI-Generated Summary