ChatPaper.aiChatPaper

Solução Vencedora do AIMO-2: Construindo Modelos de Raciocínio Matemático de Última Geração com o Conjunto de Dados OpenMathReasoning

AIMO-2 Winning Solution: Building State-of-the-Art Mathematical Reasoning Models with OpenMathReasoning dataset

April 23, 2025
Autores: Ivan Moshkov, Darragh Hanley, Ivan Sorokin, Shubham Toshniwal, Christof Henkel, Benedikt Schifferer, Wei Du, Igor Gitman
cs.AI

Resumo

Este artigo apresenta nossa submissão vencedora da Olimpíada Matemática de IA - Prêmio de Progresso 2 (AIMO-2). Nossa receita para construir modelos de raciocínio matemático de ponta baseia-se em três pilares principais. Primeiro, criamos um conjunto de dados em larga escala composto por 540 mil problemas matemáticos únicos e de alta qualidade, incluindo problemas de nível olímpico, e suas 3,2 milhões de soluções de raciocínio longo. Segundo, desenvolvemos um método inovador para integrar a execução de código com modelos de raciocínio longo por meio de treinamento iterativo, geração e filtragem de qualidade, resultando em 1,7 milhão de soluções de Raciocínio Integrado com Ferramentas de alta qualidade. Terceiro, criamos um pipeline para treinar modelos a selecionar a solução mais promissora entre muitos candidatos. Mostramos que essa seleção generativa de soluções (GenSelect) pode melhorar significativamente em relação à linha de base de votação majoritária. Combinando essas ideias, treinamos uma série de modelos que alcançam resultados de ponta em benchmarks de raciocínio matemático. Para facilitar pesquisas futuras, disponibilizamos nosso código, modelos e o conjunto de dados completo OpenMathReasoning sob uma licença comercialmente permissiva.
English
This paper presents our winning submission to the AI Mathematical Olympiad - Progress Prize 2 (AIMO-2) competition. Our recipe for building state-of-the-art mathematical reasoning models relies on three key pillars. First, we create a large-scale dataset comprising 540K unique high-quality math problems, including olympiad-level problems, and their 3.2M long-reasoning solutions. Second, we develop a novel method to integrate code execution with long reasoning models through iterative training, generation, and quality filtering, resulting in 1.7M high-quality Tool-Integrated Reasoning solutions. Third, we create a pipeline to train models to select the most promising solution from many candidates. We show that such generative solution selection (GenSelect) can significantly improve upon majority voting baseline. Combining these ideas, we train a series of models that achieve state-of-the-art results on mathematical reasoning benchmarks. To facilitate further research, we release our code, models, and the complete OpenMathReasoning dataset under a commercially permissive license.

Summary

AI-Generated Summary

PDF182April 24, 2025