ChatPaper.aiChatPaper

Verso un Ragionamento Matematico Robusto

Towards Robust Mathematical Reasoning

November 3, 2025
Autori: Thang Luong, Dawsen Hwang, Hoang H. Nguyen, Golnaz Ghiasi, Yuri Chervonyi, Insuk Seo, Junsu Kim, Garrett Bingham, Jonathan Lee, Swaroop Mishra, Alex Zhai, Clara Huiyi Hu, Henryk Michalewski, Jimin Kim, Jeonghyun Ahn, Junhwi Bae, Xingyou Song, Trieu H. Trinh, Quoc V. Le, Junehyuk Jung
cs.AI

Abstract

Identificare le metriche di riferimento ottimali è di fondamentale importanza per far progredire le capacità di ragionamento matematico dei modelli di base, soprattutto considerando che le valutazioni esistenti sono troppo semplici o si concentrano esclusivamente sull’ottenimento di risposte brevi corrette. Per affrontare queste problematiche, presentiamo IMO-Bench, una suite di benchmark di ragionamento avanzato, validata da un panel di specialisti di alto livello e specificamente mirata al livello delle Olimpiadi Internazionali della Matematica (IMO), il più prestigioso contesto per giovani matematici. IMO-AnswerBench testa inizialmente i modelli su 400 problemi olimpici diversificati con risposte brevi verificabili. IMO-Proof Bench rappresenta la valutazione di livello superiore per le capacità di scrittura di dimostrazioni, includendo sia problemi di livello IMO base che avanzato, nonché linee guida di valutazione dettagliate per facilitare la correzione automatica. Questi benchmark hanno svolto un ruolo cruciale nel nostro storico risultato di performance a livello oro alle IMO 2025 con Gemini Deep Think (Luong e Lockhart, 2025). Il nostro modello ha ottenuto l'80,0% su IMO-AnswerBench e il 65,7% su IMO-Proof Bench avanzato, superando i migliori modelli non-Gemini con ampi margini rispettivamente del 6,9% e del 42,4%. Abbiamo inoltre dimostrato che i sistemi di correzione automatica costruiti con il ragionamento di Gemini correlano bene con le valutazioni umane e abbiamo creato IMO-GradingBench, con 1000 valutazioni umane su dimostrazioni, per favorire ulteriori progressi nella valutazione automatica di risposte estese. Confidiamo che IMO-Bench aiuterà la comunità a progredire verso un ragionamento matematico robusto e lo rendiamo disponibile all'indirizzo https://imobench.github.io/.
English
Finding the right north-star metrics is highly critical for advancing the mathematical reasoning capabilities of foundation models, especially given that existing evaluations are either too easy or only focus on getting correct short answers. To address these issues, we present IMO-Bench, a suite of advanced reasoning benchmarks, vetted by a panel of top specialists and that specifically targets the level of the International Mathematical Olympiad (IMO), the most prestigious venue for young mathematicians. IMO-AnswerBench first tests models on 400 diverse Olympiad problems with verifiable short answers. IMO-Proof Bench is the next-level evaluation for proof-writing capabilities, which includes both basic and advanced IMO level problems as well as detailed grading guidelines to facilitate automatic grading. These benchmarks played a crucial role in our historic achievement of the gold-level performance at IMO 2025 with Gemini Deep Think (Luong and Lockhart, 2025). Our model achieved 80.0% on IMO-AnswerBench and 65.7% on the advanced IMO-Proof Bench, surpassing the best non-Gemini models by large margins of 6.9% and 42.4% respectively. We also showed that autograders built with Gemini reasoning correlate well with human evaluations and construct IMO-GradingBench, with 1000 human gradings on proofs, to enable further progress in automatic evaluation of long-form answers. We hope that IMO-Bench will help the community towards advancing robust mathematical reasoning and release it at https://imobench.github.io/.
PDF71December 2, 2025