AceMath: Развитие передового математического рассуждения с помощью пост-тренировки и моделирования вознаграждения

Аннотация

В данной статье мы представляем AceMath, набор передовых математических моделей, которые отлично справляются с решением сложных математических задач, а также высокоэффективные модели вознаграждения, способные оценивать созданные решения и надежно идентифицировать правильные. Для разработки математических моделей, настроенных на инструкции, мы предлагаем процесс надзорного дообучения (SFT), который сначала достигает конкурентоспособной производительности в общих областях, а затем направленно донастраивается для математической области с использованием тщательно отобранного набора подсказок и синтетически сгенерированных ответов. Полученная модель, AceMath-72B-Instruct, значительно превосходит Qwen2.5-Math-72B-Instruct, GPT-4o и Claude-3.5 Sonnet. Для разработки математической модели вознаграждения, специализированной на математике, мы сначала создаем AceMath-RewardBench, всеобъемлющую и надежную платформу для оценки математических моделей вознаграждения на различных задачах и уровнях сложности. Затем мы представляем систематический подход к построению наших математических моделей вознаграждения. Полученная модель, AceMath-72B-RM, последовательно превосходит современные модели вознаграждения. Более того, при объединении AceMath-72B-Instruct с AceMath-72B-RM мы достигаем самого высокого среднего показателя rm@8 по математическим бенчмаркам рассуждения. Мы предоставим веса модели, обучающие данные и оценочные бенчмарки по адресу: https://research.nvidia.com/labs/adlr/acemath

English

In this paper, we introduce AceMath, a suite of frontier math models that excel in solving complex math problems, along with highly effective reward models capable of evaluating generated solutions and reliably identifying the correct ones. To develop the instruction-tuned math models, we propose a supervised fine-tuning (SFT) process that first achieves competitive performance across general domains, followed by targeted fine-tuning for the math domain using a carefully curated set of prompts and synthetically generated responses. The resulting model, AceMath-72B-Instruct greatly outperforms Qwen2.5-Math-72B-Instruct, GPT-4o and Claude-3.5 Sonnet. To develop math-specialized reward model, we first construct AceMath-RewardBench, a comprehensive and robust benchmark for evaluating math reward models across diverse problems and difficulty levels. After that, we present a systematic approach to build our math reward models. The resulting model, AceMath-72B-RM, consistently outperforms state-of-the-art reward models. Furthermore, when combining AceMath-72B-Instruct with AceMath-72B-RM, we achieve the highest average rm@8 score across the math reasoning benchmarks. We will release model weights, training data, and evaluation benchmarks at: https://research.nvidia.com/labs/adlr/acemath

AceMath: Развитие передового математического рассуждения с помощью пост-тренировки и моделирования вознаграждения

AceMath: Advancing Frontier Math Reasoning with Post-Training and Reward Modeling

Аннотация

Support