AceMath: Avanzando en el Razonamiento Matemático de Vanguardia con Post-Entrenamiento y Modelado de Recompensa
AceMath: Advancing Frontier Math Reasoning with Post-Training and Reward Modeling
December 19, 2024
Autores: Zihan Liu, Yang Chen, Mohammad Shoeybi, Bryan Catanzaro, Wei Ping
cs.AI
Resumen
En este documento, presentamos AceMath, un conjunto de modelos matemáticos de vanguardia que destacan en la resolución de problemas matemáticos complejos, junto con modelos de recompensa altamente efectivos capaces de evaluar las soluciones generadas e identificar de manera confiable las correctas. Para desarrollar los modelos matemáticos ajustados a instrucciones, proponemos un proceso de ajuste fino supervisado (SFT) que primero logra un rendimiento competitivo en dominios generales, seguido por un ajuste fino específico para el dominio matemático utilizando un conjunto cuidadosamente seleccionado de indicaciones y respuestas generadas sintéticamente. El modelo resultante, AceMath-72B-Instruct, supera ampliamente a Qwen2.5-Math-72B-Instruct, GPT-4o y Claude-3.5 Sonnet. Para desarrollar el modelo de recompensa especializado en matemáticas, primero construimos AceMath-RewardBench, un banco de pruebas completo y robusto para evaluar modelos de recompensa matemática en diversos problemas y niveles de dificultad. Posteriormente, presentamos un enfoque sistemático para construir nuestros modelos de recompensa matemática. El modelo resultante, AceMath-72B-RM, supera consistentemente a los modelos de recompensa de vanguardia. Además, al combinar AceMath-72B-Instruct con AceMath-72B-RM, logramos el puntaje promedio más alto de rm@8 en los bancos de pruebas de razonamiento matemático. Publicaremos los pesos del modelo, los datos de entrenamiento y los bancos de pruebas de evaluación en: https://research.nvidia.com/labs/adlr/acemath
English
In this paper, we introduce AceMath, a suite of frontier math models that
excel in solving complex math problems, along with highly effective reward
models capable of evaluating generated solutions and reliably identifying the
correct ones. To develop the instruction-tuned math models, we propose a
supervised fine-tuning (SFT) process that first achieves competitive
performance across general domains, followed by targeted fine-tuning for the
math domain using a carefully curated set of prompts and synthetically
generated responses. The resulting model, AceMath-72B-Instruct greatly
outperforms Qwen2.5-Math-72B-Instruct, GPT-4o and Claude-3.5 Sonnet. To develop
math-specialized reward model, we first construct AceMath-RewardBench, a
comprehensive and robust benchmark for evaluating math reward models across
diverse problems and difficulty levels. After that, we present a systematic
approach to build our math reward models. The resulting model, AceMath-72B-RM,
consistently outperforms state-of-the-art reward models. Furthermore, when
combining AceMath-72B-Instruct with AceMath-72B-RM, we achieve the highest
average rm@8 score across the math reasoning benchmarks. We will release model
weights, training data, and evaluation benchmarks at:
https://research.nvidia.com/labs/adlr/acemathSummary
AI-Generated Summary