ChatPaper.aiChatPaper

Hacia un Razonamiento Matemático Robusto

Towards Robust Mathematical Reasoning

November 3, 2025
Autores: Thang Luong, Dawsen Hwang, Hoang H. Nguyen, Golnaz Ghiasi, Yuri Chervonyi, Insuk Seo, Junsu Kim, Garrett Bingham, Jonathan Lee, Swaroop Mishra, Alex Zhai, Clara Huiyi Hu, Henryk Michalewski, Jimin Kim, Jeonghyun Ahn, Junhwi Bae, Xingyou Song, Trieu H. Trinh, Quoc V. Le, Junehyuk Jung
cs.AI

Resumen

Encontrar las métricas norte correctas es fundamental para avanzar en las capacidades de razonamiento matemático de los modelos fundacionales, especialmente dado que las evaluaciones existentes son demasiado fáciles o se centran únicamente en obtener respuestas breves correctas. Para abordar estos problemas, presentamos IMO-Bench, un conjunto de puntos de referencia de razonamiento avanzado, revisado por un panel de especialistas de primer nivel y que se dirige específicamente al nivel de la Olimpiada Internacional de Matemáticas (IMO), el evento más prestigioso para jóvenes matemáticos. IMO-AnswerBench evalúa primero a los modelos en 400 problemas diversos de olimpiadas con respuestas breves verificables. IMO-Proof Bench es la evaluación de siguiente nivel para las capacidades de escritura de demostraciones, que incluye problemas básicos y avanzados de nivel IMO, así como pautas de calificación detalladas para facilitar la evaluación automática. Estos puntos de referencia desempeñaron un papel crucial en nuestro logro histórico del rendimiento a nivel de oro en la IMO 2025 con Gemini Deep Think (Luong y Lockhart, 2025). Nuestro modelo alcanzó un 80.0% en IMO-AnswerBench y un 65.7% en IMO-Proof Bench avanzado, superando a los mejores modelos no-Gemini por amplios márgenes del 6.9% y 42.4% respectivamente. También demostramos que los correctores automáticos construidos con el razonamiento de Gemini se correlacionan bien con las evaluaciones humanas y construimos IMO-GradingBench, con 1000 calificaciones humanas de demostraciones, para permitir un mayor progreso en la evaluación automática de respuestas de formato largo. Esperamos que IMO-Bench ayude a la comunidad a avanzar hacia un razonamiento matemático robusto y lo publicamos en https://imobench.github.io/.
English
Finding the right north-star metrics is highly critical for advancing the mathematical reasoning capabilities of foundation models, especially given that existing evaluations are either too easy or only focus on getting correct short answers. To address these issues, we present IMO-Bench, a suite of advanced reasoning benchmarks, vetted by a panel of top specialists and that specifically targets the level of the International Mathematical Olympiad (IMO), the most prestigious venue for young mathematicians. IMO-AnswerBench first tests models on 400 diverse Olympiad problems with verifiable short answers. IMO-Proof Bench is the next-level evaluation for proof-writing capabilities, which includes both basic and advanced IMO level problems as well as detailed grading guidelines to facilitate automatic grading. These benchmarks played a crucial role in our historic achievement of the gold-level performance at IMO 2025 with Gemini Deep Think (Luong and Lockhart, 2025). Our model achieved 80.0% on IMO-AnswerBench and 65.7% on the advanced IMO-Proof Bench, surpassing the best non-Gemini models by large margins of 6.9% and 42.4% respectively. We also showed that autograders built with Gemini reasoning correlate well with human evaluations and construct IMO-GradingBench, with 1000 human gradings on proofs, to enable further progress in automatic evaluation of long-form answers. We hope that IMO-Bench will help the community towards advancing robust mathematical reasoning and release it at https://imobench.github.io/.
PDF71January 19, 2026