Hacia un Razonamiento Matemático Robusto
Towards Robust Mathematical Reasoning
November 3, 2025
Autores: Thang Luong, Dawsen Hwang, Hoang H. Nguyen, Golnaz Ghiasi, Yuri Chervonyi, Insuk Seo, Junsu Kim, Garrett Bingham, Jonathan Lee, Swaroop Mishra, Alex Zhai, Clara Huiyi Hu, Henryk Michalewski, Jimin Kim, Jeonghyun Ahn, Junhwi Bae, Xingyou Song, Trieu H. Trinh, Quoc V. Le, Junehyuk Jung
cs.AI
Resumen
Encontrar las métricas norte correctas es fundamental para avanzar en las capacidades de razonamiento matemático de los modelos fundacionales, especialmente dado que las evaluaciones existentes son demasiado fáciles o se centran únicamente en obtener respuestas breves correctas. Para abordar estos problemas, presentamos IMO-Bench, un conjunto de puntos de referencia de razonamiento avanzado, revisado por un panel de especialistas de primer nivel y que se dirige específicamente al nivel de la Olimpiada Internacional de Matemáticas (IMO), el evento más prestigioso para jóvenes matemáticos. IMO-AnswerBench evalúa primero a los modelos en 400 problemas diversos de olimpiadas con respuestas breves verificables. IMO-Proof Bench es la evaluación de siguiente nivel para las capacidades de escritura de demostraciones, que incluye problemas básicos y avanzados de nivel IMO, así como pautas de calificación detalladas para facilitar la evaluación automática. Estos puntos de referencia desempeñaron un papel crucial en nuestro logro histórico del rendimiento a nivel de oro en la IMO 2025 con Gemini Deep Think (Luong y Lockhart, 2025). Nuestro modelo alcanzó un 80.0% en IMO-AnswerBench y un 65.7% en IMO-Proof Bench avanzado, superando a los mejores modelos no-Gemini por amplios márgenes del 6.9% y 42.4% respectivamente. También demostramos que los correctores automáticos construidos con el razonamiento de Gemini se correlacionan bien con las evaluaciones humanas y construimos IMO-GradingBench, con 1000 calificaciones humanas de demostraciones, para permitir un mayor progreso en la evaluación automática de respuestas de formato largo. Esperamos que IMO-Bench ayude a la comunidad a avanzar hacia un razonamiento matemático robusto y lo publicamos en https://imobench.github.io/.
English
Finding the right north-star metrics is highly critical for advancing the
mathematical reasoning capabilities of foundation models, especially given that
existing evaluations are either too easy or only focus on getting correct short
answers. To address these issues, we present IMO-Bench, a suite of advanced
reasoning benchmarks, vetted by a panel of top specialists and that
specifically targets the level of the International Mathematical Olympiad
(IMO), the most prestigious venue for young mathematicians. IMO-AnswerBench
first tests models on 400 diverse Olympiad problems with verifiable short
answers. IMO-Proof Bench is the next-level evaluation for proof-writing
capabilities, which includes both basic and advanced IMO level problems as well
as detailed grading guidelines to facilitate automatic grading. These
benchmarks played a crucial role in our historic achievement of the gold-level
performance at IMO 2025 with Gemini Deep Think (Luong and Lockhart, 2025). Our
model achieved 80.0% on IMO-AnswerBench and 65.7% on the advanced IMO-Proof
Bench, surpassing the best non-Gemini models by large margins of 6.9% and 42.4%
respectively. We also showed that autograders built with Gemini reasoning
correlate well with human evaluations and construct IMO-GradingBench, with 1000
human gradings on proofs, to enable further progress in automatic evaluation of
long-form answers. We hope that IMO-Bench will help the community towards
advancing robust mathematical reasoning and release it at
https://imobench.github.io/.