ChatPaper.aiChatPaper

Vers un raisonnement mathématique robuste

Towards Robust Mathematical Reasoning

November 3, 2025
papers.authors: Thang Luong, Dawsen Hwang, Hoang H. Nguyen, Golnaz Ghiasi, Yuri Chervonyi, Insuk Seo, Junsu Kim, Garrett Bingham, Jonathan Lee, Swaroop Mishra, Alex Zhai, Clara Huiyi Hu, Henryk Michalewski, Jimin Kim, Jeonghyun Ahn, Junhwi Bae, Xingyou Song, Trieu H. Trinh, Quoc V. Le, Junehyuk Jung
cs.AI

papers.abstract

La définition de métriques phares appropriées est cruciale pour faire progresser les capacités de raisonnement mathématique des modèles de fondation, surtout étant donné que les évaluations existantes sont soit trop faciles, soit se concentrent uniquement sur l'obtention de réponses courtes correctes. Pour résoudre ces problèmes, nous présentons IMO-Bench, une suite de benchmarks de raisonnement avancé, validée par un panel de spécialistes de haut niveau et ciblant spécifiquement le niveau des Olympiades Internationales de Mathématiques (OIM), la compétition la plus prestigieuse pour les jeunes mathématiciens. IMO-AnswerBench teste d'abord les modèles sur 400 problèmes diversifiés d'Olympiades avec des réponses courtes vérifiables. IMO-ProofBench est l'évaluation de niveau supérieur pour les capacités de rédaction de preuves, incluant à la fois des problèmes de niveau OIM basique et avancé ainsi que des directives de notation détaillées pour faciliter l'évaluation automatique. Ces benchmarks ont joué un rôle crucial dans notre réalisation historique d'une performance de niveau or aux OIM 2025 avec Gemini Deep Think (Luong et Lockhart, 2025). Notre modèle a atteint 80,0 % sur IMO-AnswerBench et 65,7 % sur IMO-ProofBench avancé, surpassant les meilleurs modèles non-Gemini par de larges marges de 6,9 % et 42,4 % respectivement. Nous avons également montré que les correcteurs automatiques construits avec le raisonnement de Gemini corrèlent bien avec les évaluations humaines et avons créé IMO-GradingBench, avec 1000 notations humaines de preuves, pour permettre de nouveaux progrès dans l'évaluation automatique des réponses longues. Nous espérons qu'IMO-Bench aidera la communauté à progresser vers un raisonnement mathématique robuste et le mettons à disposition sur https://imobench.github.io/.
English
Finding the right north-star metrics is highly critical for advancing the mathematical reasoning capabilities of foundation models, especially given that existing evaluations are either too easy or only focus on getting correct short answers. To address these issues, we present IMO-Bench, a suite of advanced reasoning benchmarks, vetted by a panel of top specialists and that specifically targets the level of the International Mathematical Olympiad (IMO), the most prestigious venue for young mathematicians. IMO-AnswerBench first tests models on 400 diverse Olympiad problems with verifiable short answers. IMO-Proof Bench is the next-level evaluation for proof-writing capabilities, which includes both basic and advanced IMO level problems as well as detailed grading guidelines to facilitate automatic grading. These benchmarks played a crucial role in our historic achievement of the gold-level performance at IMO 2025 with Gemini Deep Think (Luong and Lockhart, 2025). Our model achieved 80.0% on IMO-AnswerBench and 65.7% on the advanced IMO-Proof Bench, surpassing the best non-Gemini models by large margins of 6.9% and 42.4% respectively. We also showed that autograders built with Gemini reasoning correlate well with human evaluations and construct IMO-GradingBench, with 1000 human gradings on proofs, to enable further progress in automatic evaluation of long-form answers. We hope that IMO-Bench will help the community towards advancing robust mathematical reasoning and release it at https://imobench.github.io/.
PDF71January 19, 2026