Rumo ao Raciocínio Matemático Robusto
Towards Robust Mathematical Reasoning
November 3, 2025
Autores: Thang Luong, Dawsen Hwang, Hoang H. Nguyen, Golnaz Ghiasi, Yuri Chervonyi, Insuk Seo, Junsu Kim, Garrett Bingham, Jonathan Lee, Swaroop Mishra, Alex Zhai, Clara Huiyi Hu, Henryk Michalewski, Jimin Kim, Jeonghyun Ahn, Junhwi Bae, Xingyou Song, Trieu H. Trinh, Quoc V. Le, Junehyuk Jung
cs.AI
Resumo
A definição das métricas norteadoras adequadas é crucial para o avanço das capacidades de raciocínio matemático dos modelos de base, especialmente considerando que as avaliações existentes são ou muito fáceis ou focam apenas na obtenção de respostas curtas corretas. Para resolver essas questões, apresentamos o IMO-Bench, um conjunto de benchmarks de raciocínio avançado, validado por um painel de especialistas de alto nível e que visa especificamente o nível da Olimpíada Internacional de Matemática (IMO), o evento mais prestigiado para jovens matemáticos. O IMO-AnswerBench testa primeiro os modelos em 400 problemas diversos de Olimpíadas com respostas curtas verificáveis. O IMO-Proof Bench é a avaliação de nível superior para capacidades de escrita de provas, que inclui problemas básicos e avançados de nível IMO, bem como diretrizes de correção detalhadas para facilitar a avaliação automática. Esses benchmarks desempenharam um papel crucial na nossa conquista histórica do desempenho de nível ouro na IMO 2025 com o Gemini Deep Think (Luong e Lockhart, 2025). Nosso modelo alcançou 80,0% no IMO-AnswerBench e 65,7% no IMO-Proof Bench avançado, superando os melhores modelos não-Gemini por grandes margens de 6,9% e 42,4%, respectivamente. Também demonstramos que os corretores automáticos construídos com o raciocínio do Gemini correlacionam-se bem com as avaliações humanas e construímos o IMO-GradingBench, com 1000 correções humanas de provas, para permitir mais progressos na avaliação automática de respostas longas. Esperamos que o IMO-Bench ajude a comunidade a avançar no raciocínio matemático robusto e o disponibilizamos em https://imobench.github.io/.
English
Finding the right north-star metrics is highly critical for advancing the
mathematical reasoning capabilities of foundation models, especially given that
existing evaluations are either too easy or only focus on getting correct short
answers. To address these issues, we present IMO-Bench, a suite of advanced
reasoning benchmarks, vetted by a panel of top specialists and that
specifically targets the level of the International Mathematical Olympiad
(IMO), the most prestigious venue for young mathematicians. IMO-AnswerBench
first tests models on 400 diverse Olympiad problems with verifiable short
answers. IMO-Proof Bench is the next-level evaluation for proof-writing
capabilities, which includes both basic and advanced IMO level problems as well
as detailed grading guidelines to facilitate automatic grading. These
benchmarks played a crucial role in our historic achievement of the gold-level
performance at IMO 2025 with Gemini Deep Think (Luong and Lockhart, 2025). Our
model achieved 80.0% on IMO-AnswerBench and 65.7% on the advanced IMO-Proof
Bench, surpassing the best non-Gemini models by large margins of 6.9% and 42.4%
respectively. We also showed that autograders built with Gemini reasoning
correlate well with human evaluations and construct IMO-GradingBench, with 1000
human gradings on proofs, to enable further progress in automatic evaluation of
long-form answers. We hope that IMO-Bench will help the community towards
advancing robust mathematical reasoning and release it at
https://imobench.github.io/.