ChatPaper.aiChatPaper

AIMO-2優勝ソリューション:OpenMathReasoningデータセットを用いた最先端の数学的推論モデルの構築

AIMO-2 Winning Solution: Building State-of-the-Art Mathematical Reasoning Models with OpenMathReasoning dataset

April 23, 2025
著者: Ivan Moshkov, Darragh Hanley, Ivan Sorokin, Shubham Toshniwal, Christof Henkel, Benedikt Schifferer, Wei Du, Igor Gitman
cs.AI

要旨

本論文は、AI数学オリンピアド - Progress Prize 2 (AIMO-2) コンペティションにおける優勝ソリューションを紹介する。我々の最先端の数学的推論モデル構築のレシピは、3つの重要な柱に基づいている。第一に、オリンピアドレベルの問題を含む54万件のユニークな高品質な数学問題と、それらの320万件の長文推論解法からなる大規模データセットを作成した。第二に、コード実行と長文推論モデルを反復的なトレーニング、生成、品質フィルタリングを通じて統合する新規の手法を開発し、170万件の高品質なツール統合推論解法を生成した。第三に、多数の候補から最も有望な解法を選択するモデルをトレーニングするパイプラインを構築した。この生成的解法選択(GenSelect)が多数決ベースラインを大幅に改善できることを示す。これらのアイデアを組み合わせ、数学的推論ベンチマークで最先端の結果を達成する一連のモデルをトレーニングした。さらなる研究を促進するため、商用利用可能なライセンスの下でコード、モデル、および完全なOpenMathReasoningデータセットを公開する。
English
This paper presents our winning submission to the AI Mathematical Olympiad - Progress Prize 2 (AIMO-2) competition. Our recipe for building state-of-the-art mathematical reasoning models relies on three key pillars. First, we create a large-scale dataset comprising 540K unique high-quality math problems, including olympiad-level problems, and their 3.2M long-reasoning solutions. Second, we develop a novel method to integrate code execution with long reasoning models through iterative training, generation, and quality filtering, resulting in 1.7M high-quality Tool-Integrated Reasoning solutions. Third, we create a pipeline to train models to select the most promising solution from many candidates. We show that such generative solution selection (GenSelect) can significantly improve upon majority voting baseline. Combining these ideas, we train a series of models that achieve state-of-the-art results on mathematical reasoning benchmarks. To facilitate further research, we release our code, models, and the complete OpenMathReasoning dataset under a commercially permissive license.

Summary

AI-Generated Summary

PDF182April 24, 2025