rStar-Math: Pequeños LLMs pueden dominar el razonamiento matemático con Pensamiento Profundo Auto-Evolucionado
rStar-Math: Small LLMs Can Master Math Reasoning with Self-Evolved Deep Thinking
January 8, 2025
Autores: Xinyu Guan, Li Lyna Zhang, Yifei Liu, Ning Shang, Youran Sun, Yi Zhu, Fan Yang, Mao Yang
cs.AI
Resumen
Presentamos rStar-Math para demostrar que los modelos de lenguaje pequeños (SLMs) pueden rivalizar e incluso superar la capacidad de razonamiento matemático de OpenAI o1, sin destilación de modelos superiores. rStar-Math logra esto ejerciendo "pensamiento profundo" a través de la Búsqueda del Árbol de Monte Carlo (MCTS), donde un SLM de política matemática realiza una búsqueda en tiempo de prueba guiada por un modelo de recompensa de proceso basado en SLM. rStar-Math introduce tres innovaciones para abordar los desafíos en el entrenamiento de los dos SLMs: (1) un novedoso método de síntesis de datos CoT aumentado con código, que realiza extensas simulaciones MCTS para generar trayectorias de razonamiento verificadas paso a paso utilizadas para entrenar el SLM de política; (2) un novedoso método de entrenamiento de modelo de recompensa de proceso que evita la anotación de puntajes a nivel de paso ingenua, produciendo un modelo de preferencia de proceso (PPM) más efectivo; (3) una receta de autoevolución en la que el SLM de política y el PPM se construyen desde cero y se evolucionan iterativamente para mejorar las capacidades de razonamiento. A través de 4 rondas de autoevolución con millones de soluciones sintetizadas para 747k problemas matemáticos, rStar-Math impulsa el razonamiento matemático de los SLMs a niveles de vanguardia. En el banco de pruebas MATH, mejora Qwen2.5-Math-7B del 58.8% al 90.0% y Phi3-mini-3.8B del 41.4% al 86.4%, superando a o1-preview en +4.5% y +0.9%. En la Olimpiada Matemática de EE. UU. (AIME), rStar-Math resuelve un promedio del 53.3% (8/15) de problemas, ubicándose entre el 20% superior de los estudiantes de matemáticas más brillantes de la escuela secundaria. El código y los datos estarán disponibles en https://github.com/microsoft/rStar.
English
We present rStar-Math to demonstrate that small language models (SLMs) can
rival or even surpass the math reasoning capability of OpenAI o1, without
distillation from superior models. rStar-Math achieves this by exercising "deep
thinking" through Monte Carlo Tree Search (MCTS), where a math policy SLM
performs test-time search guided by an SLM-based process reward model.
rStar-Math introduces three innovations to tackle the challenges in training
the two SLMs: (1) a novel code-augmented CoT data sythesis method, which
performs extensive MCTS rollouts to generate step-by-step verified reasoning
trajectories used to train the policy SLM; (2) a novel process reward model
training method that avoids na\"ive step-level score annotation, yielding a
more effective process preference model (PPM); (3) a self-evolution recipe in
which the policy SLM and PPM are built from scratch and iteratively evolved to
improve reasoning capabilities. Through 4 rounds of self-evolution with
millions of synthesized solutions for 747k math problems, rStar-Math boosts
SLMs' math reasoning to state-of-the-art levels. On the MATH benchmark, it
improves Qwen2.5-Math-7B from 58.8% to 90.0% and Phi3-mini-3.8B from 41.4% to
86.4%, surpassing o1-preview by +4.5% and +0.9%. On the USA Math Olympiad
(AIME), rStar-Math solves an average of 53.3% (8/15) of problems, ranking among
the top 20% the brightest high school math students. Code and data will be
available at https://github.com/microsoft/rStar.Summary
AI-Generated Summary