Rumo ao Raciocínio Matemático Robusto

Resumo

A definição das métricas norteadoras adequadas é crucial para o avanço das capacidades de raciocínio matemático dos modelos de base, especialmente considerando que as avaliações existentes são ou muito fáceis ou focam apenas na obtenção de respostas curtas corretas. Para resolver essas questões, apresentamos o IMO-Bench, um conjunto de benchmarks de raciocínio avançado, validado por um painel de especialistas de alto nível e que visa especificamente o nível da Olimpíada Internacional de Matemática (IMO), o evento mais prestigiado para jovens matemáticos. O IMO-AnswerBench testa primeiro os modelos em 400 problemas diversos de Olimpíadas com respostas curtas verificáveis. O IMO-Proof Bench é a avaliação de nível superior para capacidades de escrita de provas, que inclui problemas básicos e avançados de nível IMO, bem como diretrizes de correção detalhadas para facilitar a avaliação automática. Esses benchmarks desempenharam um papel crucial na nossa conquista histórica do desempenho de nível ouro na IMO 2025 com o Gemini Deep Think (Luong e Lockhart, 2025). Nosso modelo alcançou 80,0% no IMO-AnswerBench e 65,7% no IMO-Proof Bench avançado, superando os melhores modelos não-Gemini por grandes margens de 6,9% e 42,4%, respectivamente. Também demonstramos que os corretores automáticos construídos com o raciocínio do Gemini correlacionam-se bem com as avaliações humanas e construímos o IMO-GradingBench, com 1000 correções humanas de provas, para permitir mais progressos na avaliação automática de respostas longas. Esperamos que o IMO-Bench ajude a comunidade a avançar no raciocínio matemático robusto e o disponibilizamos em https://imobench.github.io/.

English

Finding the right north-star metrics is highly critical for advancing the mathematical reasoning capabilities of foundation models, especially given that existing evaluations are either too easy or only focus on getting correct short answers. To address these issues, we present IMO-Bench, a suite of advanced reasoning benchmarks, vetted by a panel of top specialists and that specifically targets the level of the International Mathematical Olympiad (IMO), the most prestigious venue for young mathematicians. IMO-AnswerBench first tests models on 400 diverse Olympiad problems with verifiable short answers. IMO-Proof Bench is the next-level evaluation for proof-writing capabilities, which includes both basic and advanced IMO level problems as well as detailed grading guidelines to facilitate automatic grading. These benchmarks played a crucial role in our historic achievement of the gold-level performance at IMO 2025 with Gemini Deep Think (Luong and Lockhart, 2025). Our model achieved 80.0% on IMO-AnswerBench and 65.7% on the advanced IMO-Proof Bench, surpassing the best non-Gemini models by large margins of 6.9% and 42.4% respectively. We also showed that autograders built with Gemini reasoning correlate well with human evaluations and construct IMO-GradingBench, with 1000 human gradings on proofs, to enable further progress in automatic evaluation of long-form answers. We hope that IMO-Bench will help the community towards advancing robust mathematical reasoning and release it at https://imobench.github.io/.

Rumo ao Raciocínio Matemático Robusto

Towards Robust Mathematical Reasoning

Resumo

Support