ChatPaper.aiChatPaper

Победное решение AIMO-2: Создание передовых моделей математического мышления с использованием набора данных OpenMathReasoning

AIMO-2 Winning Solution: Building State-of-the-Art Mathematical Reasoning Models with OpenMathReasoning dataset

April 23, 2025
Авторы: Ivan Moshkov, Darragh Hanley, Ivan Sorokin, Shubham Toshniwal, Christof Henkel, Benedikt Schifferer, Wei Du, Igor Gitman
cs.AI

Аннотация

В данной статье представлена наша победная заявка на конкурс AI Mathematical Olympiad - Progress Prize 2 (AIMO-2). Наш подход к созданию передовых моделей математического рассуждения основывается на трех ключевых элементах. Во-первых, мы создаем масштабный набор данных, включающий 540 тысяч уникальных высококачественных математических задач, в том числе олимпиадного уровня, и их 3,2 миллиона подробных решений. Во-вторых, мы разрабатываем новый метод интеграции выполнения кода с моделями длинных рассуждений через итеративное обучение, генерацию и фильтрацию качества, что позволяет получить 1,7 миллиона высококачественных решений с использованием инструментов (Tool-Integrated Reasoning). В-третьих, мы создаем конвейер для обучения моделей выбирать наиболее перспективное решение из множества кандидатов. Мы показываем, что такой генеративный выбор решений (GenSelect) может значительно улучшить базовый подход, основанный на голосовании большинства. Объединяя эти идеи, мы обучаем серию моделей, которые достигают передовых результатов на тестах математического рассуждения. Для содействия дальнейшим исследованиям мы публикуем наш код, модели и полный набор данных OpenMathReasoning под коммерчески разрешительной лицензией.
English
This paper presents our winning submission to the AI Mathematical Olympiad - Progress Prize 2 (AIMO-2) competition. Our recipe for building state-of-the-art mathematical reasoning models relies on three key pillars. First, we create a large-scale dataset comprising 540K unique high-quality math problems, including olympiad-level problems, and their 3.2M long-reasoning solutions. Second, we develop a novel method to integrate code execution with long reasoning models through iterative training, generation, and quality filtering, resulting in 1.7M high-quality Tool-Integrated Reasoning solutions. Third, we create a pipeline to train models to select the most promising solution from many candidates. We show that such generative solution selection (GenSelect) can significantly improve upon majority voting baseline. Combining these ideas, we train a series of models that achieve state-of-the-art results on mathematical reasoning benchmarks. To facilitate further research, we release our code, models, and the complete OpenMathReasoning dataset under a commercially permissive license.

Summary

AI-Generated Summary

PDF182April 24, 2025