ChatPaper.aiChatPaper

堅牢な数学的推論に向けて

Towards Robust Mathematical Reasoning

November 3, 2025
著者: Thang Luong, Dawsen Hwang, Hoang H. Nguyen, Golnaz Ghiasi, Yuri Chervonyi, Insuk Seo, Junsu Kim, Garrett Bingham, Jonathan Lee, Swaroop Mishra, Alex Zhai, Clara Huiyi Hu, Henryk Michalewski, Jimin Kim, Jeonghyun Ahn, Junhwi Bae, Xingyou Song, Trieu H. Trinh, Quoc V. Le, Junehyuk Jung
cs.AI

要旨

基盤モデルの数学的推論能力を高める上で、適切な北極星メトリック(目標指標)を見極めることは極めて重要である。既存の評価指標は、容易すぎるか、あるいは正しい短答を得ることのみに焦点が当てられているためである。この問題に対処するため、我々は高度な推論ベンチマークスイート「IMO-Bench」を提案する。これはトップ専門家による審査を経ており、若手数学者にとって最も権威ある場である国際数学オリンピアード(IMO)の水準を特に対象としている。 「IMO-AnswerBench」は、検証可能な短答を要する400問の多様なオリンピアード問題でモデルをテストする。次の段階である「IMO-ProofBench」は証明記述能力の評価であり、基本的および高度なIMOレベルの問題に加え、自動採点を容易にする詳細な採点ガイドラインを含む。これらのベンチマークは、Gemini Deep Think(Luong and Lockhart, 2025)によるIMO 2025での金メダルレベル達成という歴史的成果において決定的な役割を果たした。我々のモデルは、IMO-AnswerBenchで80.0%、高度なIMO-ProofBenchで65.7%を達成し、Gemini以外の最高性能モデルをそれぞれ6.9%、42.4%という大きな差で上回った。さらに、Geminiの推論能力で構築した自動採点システムが人的評価と良好な相関を示すことを確認し、長文回答の自動評価の進展を促すため、1000件の証明に対する人的採点を含む「IMO-GradingBench」を構築した。IMO-Benchが堅牢な数学的推論の進展に寄与することを期待し、https://imobench.github.io/ で公開する。
English
Finding the right north-star metrics is highly critical for advancing the mathematical reasoning capabilities of foundation models, especially given that existing evaluations are either too easy or only focus on getting correct short answers. To address these issues, we present IMO-Bench, a suite of advanced reasoning benchmarks, vetted by a panel of top specialists and that specifically targets the level of the International Mathematical Olympiad (IMO), the most prestigious venue for young mathematicians. IMO-AnswerBench first tests models on 400 diverse Olympiad problems with verifiable short answers. IMO-Proof Bench is the next-level evaluation for proof-writing capabilities, which includes both basic and advanced IMO level problems as well as detailed grading guidelines to facilitate automatic grading. These benchmarks played a crucial role in our historic achievement of the gold-level performance at IMO 2025 with Gemini Deep Think (Luong and Lockhart, 2025). Our model achieved 80.0% on IMO-AnswerBench and 65.7% on the advanced IMO-Proof Bench, surpassing the best non-Gemini models by large margins of 6.9% and 42.4% respectively. We also showed that autograders built with Gemini reasoning correlate well with human evaluations and construct IMO-GradingBench, with 1000 human gradings on proofs, to enable further progress in automatic evaluation of long-form answers. We hope that IMO-Bench will help the community towards advancing robust mathematical reasoning and release it at https://imobench.github.io/.
PDF71January 19, 2026