К устойчивому математическому мышлению
Towards Robust Mathematical Reasoning
November 3, 2025
Авторы: Thang Luong, Dawsen Hwang, Hoang H. Nguyen, Golnaz Ghiasi, Yuri Chervonyi, Insuk Seo, Junsu Kim, Garrett Bingham, Jonathan Lee, Swaroop Mishra, Alex Zhai, Clara Huiyi Hu, Henryk Michalewski, Jimin Kim, Jeonghyun Ahn, Junhwi Bae, Xingyou Song, Trieu H. Trinh, Quoc V. Le, Junehyuk Jung
cs.AI
Аннотация
Определение правильных ключевых метрик крайне важно для развития математических рассуждений фундаментальных моделей, особенно учитывая, что существующие оценки либо слишком просты, либо сосредоточены лишь на получении кратких правильных ответов. Для решения этих проблем мы представляем IMO-Bench — набор расширенных бенчмарков для оценки рассуждений, проверенных группой ведущих специалистов и специально нацеленных на уровень Международной математической олимпиады (ММО), наиболее престижного соревнования для молодых математиков. IMO-AnswerBench сначала тестирует модели на 400 разнообразных олимпиадных задачах с проверяемыми краткими ответами. IMO-ProofBench — это оценка следующего уровня для проверки способностей к написанию доказательств, которая включает как базовые, так и продвинутые задачи уровня ММО, а также детальные критерии оценивания для облегчения автоматической проверки. Эти бенчмарки сыграли ключевую роль в нашем историческом достижении результата золотого уровня на ММО 2025 с моделью Gemini Deep Think (Luong и Lockhart, 2025). Наша модель показала результат 80,0% на IMO-AnswerBench и 65,7% на продвинутом IMO-ProofBench, значительно опередив лучшие модели не от Gemini с отрывом в 6,9% и 42,4% соответственно. Мы также продемонстрировали, что автоматические системы оценивания, созданные на основе рассуждений Gemini, хорошо коррелируют с человеческой оценкой, и создали IMO-GradingBench, содержащий 1000 человеческих оценок доказательств, чтобы способствовать дальнейшему прогрессу в автоматической оценке развернутых ответов. Мы надеемся, что IMO-Bench поможет сообществу в продвижении надежных математических рассуждений, и публикуем его по адресу https://imobench.github.io/.
English
Finding the right north-star metrics is highly critical for advancing the
mathematical reasoning capabilities of foundation models, especially given that
existing evaluations are either too easy or only focus on getting correct short
answers. To address these issues, we present IMO-Bench, a suite of advanced
reasoning benchmarks, vetted by a panel of top specialists and that
specifically targets the level of the International Mathematical Olympiad
(IMO), the most prestigious venue for young mathematicians. IMO-AnswerBench
first tests models on 400 diverse Olympiad problems with verifiable short
answers. IMO-Proof Bench is the next-level evaluation for proof-writing
capabilities, which includes both basic and advanced IMO level problems as well
as detailed grading guidelines to facilitate automatic grading. These
benchmarks played a crucial role in our historic achievement of the gold-level
performance at IMO 2025 with Gemini Deep Think (Luong and Lockhart, 2025). Our
model achieved 80.0% on IMO-AnswerBench and 65.7% on the advanced IMO-Proof
Bench, surpassing the best non-Gemini models by large margins of 6.9% and 42.4%
respectively. We also showed that autograders built with Gemini reasoning
correlate well with human evaluations and construct IMO-GradingBench, with 1000
human gradings on proofs, to enable further progress in automatic evaluation of
long-form answers. We hope that IMO-Bench will help the community towards
advancing robust mathematical reasoning and release it at
https://imobench.github.io/.