강건한 수학적 추론을 향하여
Towards Robust Mathematical Reasoning
November 3, 2025
저자: Thang Luong, Dawsen Hwang, Hoang H. Nguyen, Golnaz Ghiasi, Yuri Chervonyi, Insuk Seo, Junsu Kim, Garrett Bingham, Jonathan Lee, Swaroop Mishra, Alex Zhai, Clara Huiyi Hu, Henryk Michalewski, Jimin Kim, Jeonghyun Ahn, Junhwi Bae, Xingyou Song, Trieu H. Trinh, Quoc V. Le, Junehyuk Jung
cs.AI
초록
기초 모델의 수학적 추론 능력을 향상시키기 위해서는 올바른 지표를 설정하는 것이 매우 중요합니다. 특히 기존 평가 방법이 지나치게 쉬우거나 단순히 정답을 맞히는 데만 초점을 맞추고 있다는 점을 고려할 때 더욱 그렇습니다. 이러한 문제를 해결하기 위해 우리는 젊은 수학자들을 위한 최고의 권위 있는 장인 국제수학올림피아드(IMO) 수준을 목표로, 최고 전문가 패널의 검수를 거친 고급 추론 벤치마크 세트인 IMO-Bench를 소개합니다. IMO-AnswerBench는 검증 가능한 단답형 답변이 필요한 400개의 다양한 올림피아드 문제로 모델을 먼저 평가합니다. IMO-ProofBench는 증명 작성 능력을 위한 다음 단계의 평가로, 기본 및 고급 IMO 수준 문제와 자동 채점을 용이하게 하는 상세한 채점 가이드라인을 포함합니다. 이러한 벤치마크는 Gemini Deep Think(Luong and Lockhart, 2025)로 IMO 2025에서 금메달 수준의 성과를 거둔 우리의 역사적인 성취에 핵심적인 역할을 했습니다. 우리 모델은 IMO-AnswerBench에서 80.0%, 고급 IMO-ProofBench에서 65.7%를 달성하여 최고의 비-Gemini 모델들을 각각 6.9%p, 42.4%p라는 큰 격차로 앞섰습니다. 또한 Gemini 추론 능력으로 구축된 자동 채점기가 인간 평가와 높은 상관관계를 보인다는 것을 입증하고, 장문 답변의 자동 평가 발전을 위해 1,000개의 증명에 대한 인간 채점 데이터로 구성된 IMO-GradingBench를 구축했습니다. 우리는 IMO-Bench가 견고한 수학적 추론 발전을 위한 커뮤니티의 여정에 도움이 되기를 바라며, 이를 https://imobench.github.io/ 에 공개합니다.
English
Finding the right north-star metrics is highly critical for advancing the
mathematical reasoning capabilities of foundation models, especially given that
existing evaluations are either too easy or only focus on getting correct short
answers. To address these issues, we present IMO-Bench, a suite of advanced
reasoning benchmarks, vetted by a panel of top specialists and that
specifically targets the level of the International Mathematical Olympiad
(IMO), the most prestigious venue for young mathematicians. IMO-AnswerBench
first tests models on 400 diverse Olympiad problems with verifiable short
answers. IMO-Proof Bench is the next-level evaluation for proof-writing
capabilities, which includes both basic and advanced IMO level problems as well
as detailed grading guidelines to facilitate automatic grading. These
benchmarks played a crucial role in our historic achievement of the gold-level
performance at IMO 2025 with Gemini Deep Think (Luong and Lockhart, 2025). Our
model achieved 80.0% on IMO-AnswerBench and 65.7% on the advanced IMO-Proof
Bench, surpassing the best non-Gemini models by large margins of 6.9% and 42.4%
respectively. We also showed that autograders built with Gemini reasoning
correlate well with human evaluations and construct IMO-GradingBench, with 1000
human gradings on proofs, to enable further progress in automatic evaluation of
long-form answers. We hope that IMO-Bench will help the community towards
advancing robust mathematical reasoning and release it at
https://imobench.github.io/.