AceMath: Fortschrittliche Mathematik-Argumentation mit Post-Training und Reward-Modellierung
AceMath: Advancing Frontier Math Reasoning with Post-Training and Reward Modeling
December 19, 2024
Autoren: Zihan Liu, Yang Chen, Mohammad Shoeybi, Bryan Catanzaro, Wei Ping
cs.AI
Zusammenfassung
In diesem Paper stellen wir AceMath vor, eine Reihe von Spitzen-Mathemodellen, die sich hervorragend zur Lösung komplexer mathematischer Probleme eignen, zusammen mit äußerst effektiven Belohnungsmodellen, die generierte Lösungen bewerten können und zuverlässig die korrekten identifizieren. Um die anweisungsgesteuerten Mathemodellen zu entwickeln, schlagen wir einen überwachten Feinabstimmungsprozess (SFT) vor, der zunächst eine wettbewerbsfähige Leistung in allgemeinen Bereichen erzielt, gefolgt von gezielter Feinabstimmung für den Mathematikbereich unter Verwendung eines sorgfältig kuratierten Satzes von Anweisungen und synthetisch generierten Antworten. Das resultierende Modell, AceMath-72B-Instruct, übertrifft deutlich Qwen2.5-Math-72B-Instruct, GPT-4o und Claude-3.5 Sonnet. Um ein auf Mathematik spezialisiertes Belohnungsmodell zu entwickeln, konstruieren wir zunächst AceMath-RewardBench, einen umfassenden und robusten Benchmark zur Bewertung von Mathematik-Belohnungsmodellen über verschiedene Probleme und Schwierigkeitsgrade hinweg. Danach präsentieren wir einen systematischen Ansatz zum Aufbau unserer Mathematik-Belohnungsmodelle. Das resultierende Modell, AceMath-72B-RM, übertrifft konsistent modernste Belohnungsmodelle. Darüber hinaus erreichen wir durch die Kombination von AceMath-72B-Instruct mit AceMath-72B-RM den höchsten durchschnittlichen rm@8-Score über die Mathematik-Reasoning-Benchmarks. Wir werden Modellgewichte, Trainingsdaten und Bewertungsbenchmarks unter folgendem Link veröffentlichen: https://research.nvidia.com/labs/adlr/acemath
English
In this paper, we introduce AceMath, a suite of frontier math models that
excel in solving complex math problems, along with highly effective reward
models capable of evaluating generated solutions and reliably identifying the
correct ones. To develop the instruction-tuned math models, we propose a
supervised fine-tuning (SFT) process that first achieves competitive
performance across general domains, followed by targeted fine-tuning for the
math domain using a carefully curated set of prompts and synthetically
generated responses. The resulting model, AceMath-72B-Instruct greatly
outperforms Qwen2.5-Math-72B-Instruct, GPT-4o and Claude-3.5 Sonnet. To develop
math-specialized reward model, we first construct AceMath-RewardBench, a
comprehensive and robust benchmark for evaluating math reward models across
diverse problems and difficulty levels. After that, we present a systematic
approach to build our math reward models. The resulting model, AceMath-72B-RM,
consistently outperforms state-of-the-art reward models. Furthermore, when
combining AceMath-72B-Instruct with AceMath-72B-RM, we achieve the highest
average rm@8 score across the math reasoning benchmarks. We will release model
weights, training data, and evaluation benchmarks at:
https://research.nvidia.com/labs/adlr/acemathSummary
AI-Generated Summary