Vers un raisonnement mathématique robuste
Towards Robust Mathematical Reasoning
November 3, 2025
papers.authors: Thang Luong, Dawsen Hwang, Hoang H. Nguyen, Golnaz Ghiasi, Yuri Chervonyi, Insuk Seo, Junsu Kim, Garrett Bingham, Jonathan Lee, Swaroop Mishra, Alex Zhai, Clara Huiyi Hu, Henryk Michalewski, Jimin Kim, Jeonghyun Ahn, Junhwi Bae, Xingyou Song, Trieu H. Trinh, Quoc V. Le, Junehyuk Jung
cs.AI
papers.abstract
La définition de métriques phares appropriées est cruciale pour faire progresser les capacités de raisonnement mathématique des modèles de fondation, surtout étant donné que les évaluations existantes sont soit trop faciles, soit se concentrent uniquement sur l'obtention de réponses courtes correctes. Pour résoudre ces problèmes, nous présentons IMO-Bench, une suite de benchmarks de raisonnement avancé, validée par un panel de spécialistes de haut niveau et ciblant spécifiquement le niveau des Olympiades Internationales de Mathématiques (OIM), la compétition la plus prestigieuse pour les jeunes mathématiciens. IMO-AnswerBench teste d'abord les modèles sur 400 problèmes diversifiés d'Olympiades avec des réponses courtes vérifiables. IMO-ProofBench est l'évaluation de niveau supérieur pour les capacités de rédaction de preuves, incluant à la fois des problèmes de niveau OIM basique et avancé ainsi que des directives de notation détaillées pour faciliter l'évaluation automatique. Ces benchmarks ont joué un rôle crucial dans notre réalisation historique d'une performance de niveau or aux OIM 2025 avec Gemini Deep Think (Luong et Lockhart, 2025). Notre modèle a atteint 80,0 % sur IMO-AnswerBench et 65,7 % sur IMO-ProofBench avancé, surpassant les meilleurs modèles non-Gemini par de larges marges de 6,9 % et 42,4 % respectivement. Nous avons également montré que les correcteurs automatiques construits avec le raisonnement de Gemini corrèlent bien avec les évaluations humaines et avons créé IMO-GradingBench, avec 1000 notations humaines de preuves, pour permettre de nouveaux progrès dans l'évaluation automatique des réponses longues. Nous espérons qu'IMO-Bench aidera la communauté à progresser vers un raisonnement mathématique robuste et le mettons à disposition sur https://imobench.github.io/.
English
Finding the right north-star metrics is highly critical for advancing the
mathematical reasoning capabilities of foundation models, especially given that
existing evaluations are either too easy or only focus on getting correct short
answers. To address these issues, we present IMO-Bench, a suite of advanced
reasoning benchmarks, vetted by a panel of top specialists and that
specifically targets the level of the International Mathematical Olympiad
(IMO), the most prestigious venue for young mathematicians. IMO-AnswerBench
first tests models on 400 diverse Olympiad problems with verifiable short
answers. IMO-Proof Bench is the next-level evaluation for proof-writing
capabilities, which includes both basic and advanced IMO level problems as well
as detailed grading guidelines to facilitate automatic grading. These
benchmarks played a crucial role in our historic achievement of the gold-level
performance at IMO 2025 with Gemini Deep Think (Luong and Lockhart, 2025). Our
model achieved 80.0% on IMO-AnswerBench and 65.7% on the advanced IMO-Proof
Bench, surpassing the best non-Gemini models by large margins of 6.9% and 42.4%
respectively. We also showed that autograders built with Gemini reasoning
correlate well with human evaluations and construct IMO-GradingBench, with 1000
human gradings on proofs, to enable further progress in automatic evaluation of
long-form answers. We hope that IMO-Bench will help the community towards
advancing robust mathematical reasoning and release it at
https://imobench.github.io/.