Solución ganadora de AIMO-2: Construyendo modelos de razonamiento matemático de vanguardia con el conjunto de datos OpenMathReasoning
AIMO-2 Winning Solution: Building State-of-the-Art Mathematical Reasoning Models with OpenMathReasoning dataset
April 23, 2025
Autores: Ivan Moshkov, Darragh Hanley, Ivan Sorokin, Shubham Toshniwal, Christof Henkel, Benedikt Schifferer, Wei Du, Igor Gitman
cs.AI
Resumen
Este artículo presenta nuestra propuesta ganadora de la Olimpiada Matemática de IA - Premio de Progreso 2 (AIMO-2). Nuestra receta para construir modelos de razonamiento matemático de vanguardia se basa en tres pilares clave. En primer lugar, creamos un conjunto de datos a gran escala que comprende 540K problemas matemáticos únicos de alta calidad, incluyendo problemas de nivel olímpico, y sus 3.2M soluciones de razonamiento extenso. En segundo lugar, desarrollamos un método novedoso para integrar la ejecución de código con modelos de razonamiento extenso mediante entrenamiento iterativo, generación y filtrado de calidad, lo que resulta en 1.7M soluciones de Razonamiento Integrado con Herramientas de alta calidad. En tercer lugar, creamos una canalización para entrenar modelos que seleccionen la solución más prometedora entre muchos candidatos. Demostramos que esta selección generativa de soluciones (GenSelect) puede mejorar significativamente el enfoque de votación mayoritaria. Combinando estas ideas, entrenamos una serie de modelos que logran resultados de vanguardia en benchmarks de razonamiento matemático. Para facilitar futuras investigaciones, publicamos nuestro código, modelos y el conjunto de datos completo OpenMathReasoning bajo una licencia comercialmente permisiva.
English
This paper presents our winning submission to the AI Mathematical Olympiad -
Progress Prize 2 (AIMO-2) competition. Our recipe for building state-of-the-art
mathematical reasoning models relies on three key pillars. First, we create a
large-scale dataset comprising 540K unique high-quality math problems,
including olympiad-level problems, and their 3.2M long-reasoning solutions.
Second, we develop a novel method to integrate code execution with long
reasoning models through iterative training, generation, and quality filtering,
resulting in 1.7M high-quality Tool-Integrated Reasoning solutions. Third, we
create a pipeline to train models to select the most promising solution from
many candidates. We show that such generative solution selection (GenSelect)
can significantly improve upon majority voting baseline. Combining these ideas,
we train a series of models that achieve state-of-the-art results on
mathematical reasoning benchmarks. To facilitate further research, we release
our code, models, and the complete OpenMathReasoning dataset under a
commercially permissive license.Summary
AI-Generated Summary