Op weg naar robuust wiskundig redeneren
Towards Robust Mathematical Reasoning
November 3, 2025
Auteurs: Thang Luong, Dawsen Hwang, Hoang H. Nguyen, Golnaz Ghiasi, Yuri Chervonyi, Insuk Seo, Junsu Kim, Garrett Bingham, Jonathan Lee, Swaroop Mishra, Alex Zhai, Clara Huiyi Hu, Henryk Michalewski, Jimin Kim, Jeonghyun Ahn, Junhwi Bae, Xingyou Song, Trieu H. Trinh, Quoc V. Le, Junehyuk Jung
cs.AI
Samenvatting
Het vinden van de juchte noordster-metrieken is van cruciaal belang voor het bevorderen van de wiskundige redeneervaardigheden van foundation-modellen, vooral omdat bestaande evaluaties ofwel te gemakkelijk zijn of zich alleen richten op het verkrijgen van correcte korte antwoorden. Om deze problemen aan te pakken, presenteren wij IMO-Bench, een reeks geavanceerde redeneerbenchmarks, die zijn beoordeeld door een panel van topspecialisten en zich specifiek richten op het niveau van de Internationale Wiskunde Olympiade (IMO), het meest prestigieuze evenement voor jonge wiskundigen. IMO-AnswerBench test eerst modellen op 400 diverse Olympiade-problemen met verifieerbare korte antwoorden. IMO-ProofBench is de volgende evaluatiefase voor bewijsvaardigheden, die zowel basis- als geavanceerde IMO-niveau problemen omvat evenals gedetailleerde beoordelingsrichtlijnen om automatische beoordeling te vergemakkelijken. Deze benchmarks speelden een cruciale rol in onze historische prestatie van goudniveau op de IMO 2025 met Gemini Deep Think (Luong en Lockhart, 2025). Ons model behaalde 80,0% op IMO-AnswerBench en 65,7% op de geavanceerde IMO-ProofBench, waarmee het de beste niet-Gemini-modellen met ruime marges van respectievelijk 6,9% en 42,4% overtrof. We toonden ook aan dat automatische beoordelaars gebouwd met Gemini-redenering goed correleren met menselijke evaluaties en ontwikkelden IMO-GradingBench, met 1000 menselijke beoordelingen van bewijzen, om verdere vooruitgang in de automatische evaluatie van langere antwoorden mogelijk te maken. We hopen dat IMO-Bench de gemeenschap zal helpen bij het bevorderen van robuust wiskundig redeneren en geven het vrij op https://imobench.github.io/.
English
Finding the right north-star metrics is highly critical for advancing the
mathematical reasoning capabilities of foundation models, especially given that
existing evaluations are either too easy or only focus on getting correct short
answers. To address these issues, we present IMO-Bench, a suite of advanced
reasoning benchmarks, vetted by a panel of top specialists and that
specifically targets the level of the International Mathematical Olympiad
(IMO), the most prestigious venue for young mathematicians. IMO-AnswerBench
first tests models on 400 diverse Olympiad problems with verifiable short
answers. IMO-Proof Bench is the next-level evaluation for proof-writing
capabilities, which includes both basic and advanced IMO level problems as well
as detailed grading guidelines to facilitate automatic grading. These
benchmarks played a crucial role in our historic achievement of the gold-level
performance at IMO 2025 with Gemini Deep Think (Luong and Lockhart, 2025). Our
model achieved 80.0% on IMO-AnswerBench and 65.7% on the advanced IMO-Proof
Bench, surpassing the best non-Gemini models by large margins of 6.9% and 42.4%
respectively. We also showed that autograders built with Gemini reasoning
correlate well with human evaluations and construct IMO-GradingBench, with 1000
human gradings on proofs, to enable further progress in automatic evaluation of
long-form answers. We hope that IMO-Bench will help the community towards
advancing robust mathematical reasoning and release it at
https://imobench.github.io/.