ChatPaper.aiChatPaper

Hin zu robustem mathematischem Denken

Towards Robust Mathematical Reasoning

November 3, 2025
papers.authors: Thang Luong, Dawsen Hwang, Hoang H. Nguyen, Golnaz Ghiasi, Yuri Chervonyi, Insuk Seo, Junsu Kim, Garrett Bingham, Jonathan Lee, Swaroop Mishra, Alex Zhai, Clara Huiyi Hu, Henryk Michalewski, Jimin Kim, Jeonghyun Ahn, Junhwi Bae, Xingyou Song, Trieu H. Trinh, Quoc V. Le, Junehyuk Jung
cs.AI

papers.abstract

Die Identifikation geeigneter Nordstern-Metriken ist von entscheidender Bedeutung für die Weiterentwicklung der mathematischen Denkfähigkeiten von Foundation-Modellen, insbesondere da bestehende Evaluationen entweder zu einfach sind oder sich lediglich auf korrekte Kurzantworten konzentrieren. Um diese Probleme zu adressieren, stellen wir IMO-Bench vor, eine Suite anspruchsvoller Reasoning-Benchmarks, die von einem Gremium von Top-Spezialisten geprüft wurde und speziell das Niveau der Internationalen Mathematik-Olympiade (IMO), der renommiertesten Plattform für junge Mathematiker, anvisiert. IMO-AnswerBench testet Modelle zunächst an 400 diversen Olympiade-Aufgaben mit überprüfbaren Kurzantworten. IMO-ProofBench ist die Evaluation der nächsten Stufe für Beweisführungsfähigkeiten und umfasst sowohl grundlegende als auch fortgeschrittene IMO-Probleme sowie detaillierte Bewertungsrichtlinien zur Ermöglichung einer automatischen Benotung. Diese Benchmarks spielten eine entscheidende Rolle bei unserem historischen Erfolg mit Goldmedaillen-Niveau bei der IMO 2025 mit Gemini Deep Think (Luong und Lockhart, 2025). Unser Modell erzielte 80,0 % auf IMO-AnswerBench und 65,7 % auf dem fortgeschrittenen IMO-ProofBench und übertraf die besten Nicht-Gemini-Modelle mit deutlichen Margen von 6,9 % bzw. 42,4 %. Wir zeigten zudem, dass mit Gemini-Reasoning entwickelte Autograder gut mit menschlichen Bewertungen korrelieren, und erstellten IMO-GradingBench mit 1000 menschlichen Bewertungen von Beweisen, um weitere Fortschritte in der automatischen Evaluation langformulierter Antworten zu ermöglichen. Wir hoffen, dass IMO-Bench der Community dabei helfen wird, robustes mathematisches Denken voranzutreiben, und veröffentlichen es unter https://imobench.github.io/.
English
Finding the right north-star metrics is highly critical for advancing the mathematical reasoning capabilities of foundation models, especially given that existing evaluations are either too easy or only focus on getting correct short answers. To address these issues, we present IMO-Bench, a suite of advanced reasoning benchmarks, vetted by a panel of top specialists and that specifically targets the level of the International Mathematical Olympiad (IMO), the most prestigious venue for young mathematicians. IMO-AnswerBench first tests models on 400 diverse Olympiad problems with verifiable short answers. IMO-Proof Bench is the next-level evaluation for proof-writing capabilities, which includes both basic and advanced IMO level problems as well as detailed grading guidelines to facilitate automatic grading. These benchmarks played a crucial role in our historic achievement of the gold-level performance at IMO 2025 with Gemini Deep Think (Luong and Lockhart, 2025). Our model achieved 80.0% on IMO-AnswerBench and 65.7% on the advanced IMO-Proof Bench, surpassing the best non-Gemini models by large margins of 6.9% and 42.4% respectively. We also showed that autograders built with Gemini reasoning correlate well with human evaluations and construct IMO-GradingBench, with 1000 human gradings on proofs, to enable further progress in automatic evaluation of long-form answers. We hope that IMO-Bench will help the community towards advancing robust mathematical reasoning and release it at https://imobench.github.io/.
PDF71January 19, 2026