ChatPaper.aiChatPaper

Solution gagnante d'AIMO-2 : Construction de modèles de raisonnement mathématique de pointe avec le jeu de données OpenMathReasoning

AIMO-2 Winning Solution: Building State-of-the-Art Mathematical Reasoning Models with OpenMathReasoning dataset

April 23, 2025
Auteurs: Ivan Moshkov, Darragh Hanley, Ivan Sorokin, Shubham Toshniwal, Christof Henkel, Benedikt Schifferer, Wei Du, Igor Gitman
cs.AI

Résumé

Cet article présente notre soumission gagnante au concours AI Mathematical Olympiad - Progress Prize 2 (AIMO-2). Notre approche pour construire des modèles de raisonnement mathématique de pointe repose sur trois piliers clés. Premièrement, nous créons un jeu de données à grande échelle comprenant 540K problèmes mathématiques uniques de haute qualité, incluant des problèmes de niveau olympiade, ainsi que leurs 3,2M solutions de raisonnement long. Deuxièmement, nous développons une méthode novatrice pour intégrer l'exécution de code avec des modèles de raisonnement long grâce à un entraînement itératif, une génération et un filtrage de qualité, produisant ainsi 1,7M solutions de raisonnement intégrant des outils de haute qualité. Troisièmement, nous mettons en place un pipeline pour entraîner les modèles à sélectionner la solution la plus prometteuse parmi plusieurs candidats. Nous montrons que cette sélection générative de solutions (GenSelect) peut significativement surpasser la méthode de vote majoritaire de référence. En combinant ces idées, nous entraînons une série de modèles qui obtiennent des résultats de pointe sur des benchmarks de raisonnement mathématique. Pour faciliter les recherches futures, nous publions notre code, nos modèles et le jeu de données complet OpenMathReasoning sous une licence commercialement permissive.
English
This paper presents our winning submission to the AI Mathematical Olympiad - Progress Prize 2 (AIMO-2) competition. Our recipe for building state-of-the-art mathematical reasoning models relies on three key pillars. First, we create a large-scale dataset comprising 540K unique high-quality math problems, including olympiad-level problems, and their 3.2M long-reasoning solutions. Second, we develop a novel method to integrate code execution with long reasoning models through iterative training, generation, and quality filtering, resulting in 1.7M high-quality Tool-Integrated Reasoning solutions. Third, we create a pipeline to train models to select the most promising solution from many candidates. We show that such generative solution selection (GenSelect) can significantly improve upon majority voting baseline. Combining these ideas, we train a series of models that achieve state-of-the-art results on mathematical reasoning benchmarks. To facilitate further research, we release our code, models, and the complete OpenMathReasoning dataset under a commercially permissive license.

Summary

AI-Generated Summary

PDF182April 24, 2025