AceMath: Het bevorderen van geavanceerde wiskundige redenering aan de hand van post-training en beloningsmodellering.
AceMath: Advancing Frontier Math Reasoning with Post-Training and Reward Modeling
December 19, 2024
Auteurs: Zihan Liu, Yang Chen, Mohammad Shoeybi, Bryan Catanzaro, Wei Ping
cs.AI
Samenvatting
In dit artikel introduceren we AceMath, een reeks geavanceerde wiskundige modellen die uitblinken in het oplossen van complexe wiskundige problemen, samen met zeer effectieve beloningsmodellen die gegenereerde oplossingen kunnen evalueren en betrouwbaar de juiste kunnen identificeren. Om de op instructies afgestemde wiskundige modellen te ontwikkelen, stellen we een proces voor van begeleid finetunen (SFT) dat eerst een concurrerende prestatie behaalt over algemene domeinen, gevolgd door gericht finetunen voor het wiskundige domein met behulp van een zorgvuldig samengestelde set prompts en synthetisch gegenereerde antwoorden. Het resulterende model, AceMath-72B-Instruct, presteert aanzienlijk beter dan Qwen2.5-Math-72B-Instruct, GPT-4o en Claude-3.5 Sonnet. Om een op wiskunde gespecialiseerd beloningsmodel te ontwikkelen, construeren we eerst AceMath-RewardBench, een uitgebreide en robuuste benchmark voor het evalueren van wiskunde beloningsmodellen over diverse problemen en moeilijkheidsniveaus. Daarna presenteren we een systematische aanpak om onze wiskunde beloningsmodellen te bouwen. Het resulterende model, AceMath-72B-RM, presteert consequent beter dan state-of-the-art beloningsmodellen. Bovendien, wanneer we AceMath-72B-Instruct combineren met AceMath-72B-RM, behalen we de hoogste gemiddelde rm@8-score over de wiskundige redeneerbenchmarks. We zullen modelgewichten, trainingsgegevens en evaluatiebenchmarks vrijgeven op: https://research.nvidia.com/labs/adlr/acemath
English
In this paper, we introduce AceMath, a suite of frontier math models that
excel in solving complex math problems, along with highly effective reward
models capable of evaluating generated solutions and reliably identifying the
correct ones. To develop the instruction-tuned math models, we propose a
supervised fine-tuning (SFT) process that first achieves competitive
performance across general domains, followed by targeted fine-tuning for the
math domain using a carefully curated set of prompts and synthetically
generated responses. The resulting model, AceMath-72B-Instruct greatly
outperforms Qwen2.5-Math-72B-Instruct, GPT-4o and Claude-3.5 Sonnet. To develop
math-specialized reward model, we first construct AceMath-RewardBench, a
comprehensive and robust benchmark for evaluating math reward models across
diverse problems and difficulty levels. After that, we present a systematic
approach to build our math reward models. The resulting model, AceMath-72B-RM,
consistently outperforms state-of-the-art reward models. Furthermore, when
combining AceMath-72B-Instruct with AceMath-72B-RM, we achieve the highest
average rm@8 score across the math reasoning benchmarks. We will release model
weights, training data, and evaluation benchmarks at:
https://research.nvidia.com/labs/adlr/acemath