AceMath: Развитие передового математического рассуждения с помощью пост-тренировки и моделирования вознаграждения
AceMath: Advancing Frontier Math Reasoning with Post-Training and Reward Modeling
December 19, 2024
Авторы: Zihan Liu, Yang Chen, Mohammad Shoeybi, Bryan Catanzaro, Wei Ping
cs.AI
Аннотация
В данной статье мы представляем AceMath, набор передовых математических моделей, которые отлично справляются с решением сложных математических задач, а также высокоэффективные модели вознаграждения, способные оценивать созданные решения и надежно идентифицировать правильные. Для разработки математических моделей, настроенных на инструкции, мы предлагаем процесс надзорного дообучения (SFT), который сначала достигает конкурентоспособной производительности в общих областях, а затем направленно донастраивается для математической области с использованием тщательно отобранного набора подсказок и синтетически сгенерированных ответов. Полученная модель, AceMath-72B-Instruct, значительно превосходит Qwen2.5-Math-72B-Instruct, GPT-4o и Claude-3.5 Sonnet. Для разработки математической модели вознаграждения, специализированной на математике, мы сначала создаем AceMath-RewardBench, всеобъемлющую и надежную платформу для оценки математических моделей вознаграждения на различных задачах и уровнях сложности. Затем мы представляем систематический подход к построению наших математических моделей вознаграждения. Полученная модель, AceMath-72B-RM, последовательно превосходит современные модели вознаграждения. Более того, при объединении AceMath-72B-Instruct с AceMath-72B-RM мы достигаем самого высокого среднего показателя rm@8 по математическим бенчмаркам рассуждения. Мы предоставим веса модели, обучающие данные и оценочные бенчмарки по адресу: https://research.nvidia.com/labs/adlr/acemath
English
In this paper, we introduce AceMath, a suite of frontier math models that
excel in solving complex math problems, along with highly effective reward
models capable of evaluating generated solutions and reliably identifying the
correct ones. To develop the instruction-tuned math models, we propose a
supervised fine-tuning (SFT) process that first achieves competitive
performance across general domains, followed by targeted fine-tuning for the
math domain using a carefully curated set of prompts and synthetically
generated responses. The resulting model, AceMath-72B-Instruct greatly
outperforms Qwen2.5-Math-72B-Instruct, GPT-4o and Claude-3.5 Sonnet. To develop
math-specialized reward model, we first construct AceMath-RewardBench, a
comprehensive and robust benchmark for evaluating math reward models across
diverse problems and difficulty levels. After that, we present a systematic
approach to build our math reward models. The resulting model, AceMath-72B-RM,
consistently outperforms state-of-the-art reward models. Furthermore, when
combining AceMath-72B-Instruct with AceMath-72B-RM, we achieve the highest
average rm@8 score across the math reasoning benchmarks. We will release model
weights, training data, and evaluation benchmarks at:
https://research.nvidia.com/labs/adlr/acemathSummary
AI-Generated Summary