AceMath : Faire progresser le raisonnement mathématique de pointe avec le post-entraînement et la modélisation des récompenses
AceMath: Advancing Frontier Math Reasoning with Post-Training and Reward Modeling
December 19, 2024
Auteurs: Zihan Liu, Yang Chen, Mohammad Shoeybi, Bryan Catanzaro, Wei Ping
cs.AI
Résumé
Dans cet article, nous présentons AceMath, un ensemble de modèles mathématiques de pointe excellant dans la résolution de problèmes mathématiques complexes, ainsi que des modèles de récompense hautement efficaces capables d'évaluer les solutions générées et d'identifier de manière fiable les bonnes réponses. Pour développer les modèles mathématiques adaptés aux instructions, nous proposons un processus de fine-tuning supervisé (SFT) qui atteint d'abord des performances compétitives dans des domaines généraux, suivi d'un fine-tuning ciblé pour le domaine mathématique en utilisant un ensemble soigneusement sélectionné de consignes et de réponses générées de manière synthétique. Le modèle résultant, AceMath-72B-Instruct, surpasse largement Qwen2.5-Math-72B-Instruct, GPT-4o et Claude-3.5 Sonnet. Pour développer un modèle de récompense spécialisé en mathématiques, nous construisons d'abord AceMath-RewardBench, une référence complète et robuste pour évaluer les modèles de récompense mathématiques sur divers problèmes et niveaux de difficulté. Ensuite, nous présentons une approche systématique pour construire nos modèles de récompense mathématiques. Le modèle résultant, AceMath-72B-RM, surpasse de manière constante les modèles de récompense de pointe. De plus, en combinant AceMath-72B-Instruct avec AceMath-72B-RM, nous obtenons le score moyen rm@8 le plus élevé parmi les références en raisonnement mathématique. Nous publierons les poids du modèle, les données d'entraînement et les références d'évaluation sur : https://research.nvidia.com/labs/adlr/acemath
English
In this paper, we introduce AceMath, a suite of frontier math models that
excel in solving complex math problems, along with highly effective reward
models capable of evaluating generated solutions and reliably identifying the
correct ones. To develop the instruction-tuned math models, we propose a
supervised fine-tuning (SFT) process that first achieves competitive
performance across general domains, followed by targeted fine-tuning for the
math domain using a carefully curated set of prompts and synthetically
generated responses. The resulting model, AceMath-72B-Instruct greatly
outperforms Qwen2.5-Math-72B-Instruct, GPT-4o and Claude-3.5 Sonnet. To develop
math-specialized reward model, we first construct AceMath-RewardBench, a
comprehensive and robust benchmark for evaluating math reward models across
diverse problems and difficulty levels. After that, we present a systematic
approach to build our math reward models. The resulting model, AceMath-72B-RM,
consistently outperforms state-of-the-art reward models. Furthermore, when
combining AceMath-72B-Instruct with AceMath-72B-RM, we achieve the highest
average rm@8 score across the math reasoning benchmarks. We will release model
weights, training data, and evaluation benchmarks at:
https://research.nvidia.com/labs/adlr/acemathSummary
AI-Generated Summary