AceMath: Avanzando en el Razonamiento Matemático de Vanguardia con Post-Entrenamiento y Modelado de Recompensa

Resumen

En este documento, presentamos AceMath, un conjunto de modelos matemáticos de vanguardia que destacan en la resolución de problemas matemáticos complejos, junto con modelos de recompensa altamente efectivos capaces de evaluar las soluciones generadas e identificar de manera confiable las correctas. Para desarrollar los modelos matemáticos ajustados a instrucciones, proponemos un proceso de ajuste fino supervisado (SFT) que primero logra un rendimiento competitivo en dominios generales, seguido por un ajuste fino específico para el dominio matemático utilizando un conjunto cuidadosamente seleccionado de indicaciones y respuestas generadas sintéticamente. El modelo resultante, AceMath-72B-Instruct, supera ampliamente a Qwen2.5-Math-72B-Instruct, GPT-4o y Claude-3.5 Sonnet. Para desarrollar el modelo de recompensa especializado en matemáticas, primero construimos AceMath-RewardBench, un banco de pruebas completo y robusto para evaluar modelos de recompensa matemática en diversos problemas y niveles de dificultad. Posteriormente, presentamos un enfoque sistemático para construir nuestros modelos de recompensa matemática. El modelo resultante, AceMath-72B-RM, supera consistentemente a los modelos de recompensa de vanguardia. Además, al combinar AceMath-72B-Instruct con AceMath-72B-RM, logramos el puntaje promedio más alto de rm@8 en los bancos de pruebas de razonamiento matemático. Publicaremos los pesos del modelo, los datos de entrenamiento y los bancos de pruebas de evaluación en: https://research.nvidia.com/labs/adlr/acemath

English

In this paper, we introduce AceMath, a suite of frontier math models that excel in solving complex math problems, along with highly effective reward models capable of evaluating generated solutions and reliably identifying the correct ones. To develop the instruction-tuned math models, we propose a supervised fine-tuning (SFT) process that first achieves competitive performance across general domains, followed by targeted fine-tuning for the math domain using a carefully curated set of prompts and synthetically generated responses. The resulting model, AceMath-72B-Instruct greatly outperforms Qwen2.5-Math-72B-Instruct, GPT-4o and Claude-3.5 Sonnet. To develop math-specialized reward model, we first construct AceMath-RewardBench, a comprehensive and robust benchmark for evaluating math reward models across diverse problems and difficulty levels. After that, we present a systematic approach to build our math reward models. The resulting model, AceMath-72B-RM, consistently outperforms state-of-the-art reward models. Furthermore, when combining AceMath-72B-Instruct with AceMath-72B-RM, we achieve the highest average rm@8 score across the math reasoning benchmarks. We will release model weights, training data, and evaluation benchmarks at: https://research.nvidia.com/labs/adlr/acemath

AceMath: Avanzando en el Razonamiento Matemático de Vanguardia con Post-Entrenamiento y Modelado de Recompensa

AceMath: Advancing Frontier Math Reasoning with Post-Training and Reward Modeling

Resumen

Support