Soluzione Vincente di AIMO-2: Costruire Modelli All'avanguardia per il Ragionamento Matematico con il Dataset OpenMathReasoning
AIMO-2 Winning Solution: Building State-of-the-Art Mathematical Reasoning Models with OpenMathReasoning dataset
April 23, 2025
Autori: Ivan Moshkov, Darragh Hanley, Ivan Sorokin, Shubham Toshniwal, Christof Henkel, Benedikt Schifferer, Wei Du, Igor Gitman
cs.AI
Abstract
Questo articolo presenta la nostra proposta vincitrice per il Premio Progresso 2 delle Olimpiadi Matematiche di Intelligenza Artificiale (AIMO-2). La nostra ricetta per costruire modelli di ragionamento matematico all'avanguardia si basa su tre pilastri chiave. In primo luogo, abbiamo creato un dataset su larga scala composto da 540K problemi matematici unici di alta qualità, inclusi problemi di livello olimpico, e le loro 3.2M soluzioni con ragionamenti estesi. In secondo luogo, abbiamo sviluppato un metodo innovativo per integrare l'esecuzione di codice con modelli di ragionamento esteso attraverso un addestramento iterativo, generazione e filtraggio di qualità, ottenendo 1.7M soluzioni di alta qualità con Ragionamento Integrato con Strumenti. In terzo luogo, abbiamo creato una pipeline per addestrare i modelli a selezionare la soluzione più promettente tra molte candidate. Dimostriamo che tale selezione generativa di soluzioni (GenSelect) può migliorare significativamente rispetto alla baseline del voto a maggioranza. Combinando queste idee, abbiamo addestrato una serie di modelli che raggiungono risultati all'avanguardia nei benchmark di ragionamento matematico. Per facilitare ulteriori ricerche, rilasciamo il nostro codice, i modelli e il dataset completo OpenMathReasoning sotto una licenza commercialmente permissiva.
English
This paper presents our winning submission to the AI Mathematical Olympiad -
Progress Prize 2 (AIMO-2) competition. Our recipe for building state-of-the-art
mathematical reasoning models relies on three key pillars. First, we create a
large-scale dataset comprising 540K unique high-quality math problems,
including olympiad-level problems, and their 3.2M long-reasoning solutions.
Second, we develop a novel method to integrate code execution with long
reasoning models through iterative training, generation, and quality filtering,
resulting in 1.7M high-quality Tool-Integrated Reasoning solutions. Third, we
create a pipeline to train models to select the most promising solution from
many candidates. We show that such generative solution selection (GenSelect)
can significantly improve upon majority voting baseline. Combining these ideas,
we train a series of models that achieve state-of-the-art results on
mathematical reasoning benchmarks. To facilitate further research, we release
our code, models, and the complete OpenMathReasoning dataset under a
commercially permissive license.Summary
AI-Generated Summary