rStar-Math : Les petits LLM peuvent maîtriser le raisonnement mathématique avec une réflexion profonde auto-évoluée.
rStar-Math: Small LLMs Can Master Math Reasoning with Self-Evolved Deep Thinking
January 8, 2025
Auteurs: Xinyu Guan, Li Lyna Zhang, Yifei Liu, Ning Shang, Youran Sun, Yi Zhu, Fan Yang, Mao Yang
cs.AI
Résumé
Nous présentons rStar-Math pour démontrer que les petits modèles de langage (SLM) peuvent rivaliser, voire surpasser, la capacité de raisonnement mathématique de l'OpenAI o1, sans distillation à partir de modèles supérieurs. rStar-Math parvient à cela en exerçant une "réflexion approfondie" à travers la recherche arborescente Monte Carlo (MCTS), où un SLM de politique mathématique effectue une recherche en temps réel guidée par un modèle de récompense de processus basé sur un SLM. rStar-Math introduit trois innovations pour relever les défis liés à l'entraînement des deux SLM : (1) une nouvelle méthode de synthèse de données CoT augmentée de code, qui effectue des déploiements MCTS étendus pour générer des trajectoires de raisonnement vérifiées étape par étape utilisées pour entraîner le SLM de politique ; (2) une nouvelle méthode d'entraînement du modèle de récompense de processus qui évite l'annotation naïve des scores au niveau des étapes, produisant un modèle de préférence de processus (PPM) plus efficace ; (3) une recette d'auto-évolution dans laquelle le SLM de politique et le PPM sont construits à partir de zéro et évoluent de manière itérative pour améliorer les capacités de raisonnement. À travers 4 cycles d'auto-évolution avec des millions de solutions synthétisées pour 747 000 problèmes mathématiques, rStar-Math améliore le raisonnement mathématique des SLM à des niveaux de pointe. Sur le banc d'essai MATH, il améliore Qwen2.5-Math-7B de 58,8 % à 90,0 % et Phi3-mini-3.8B de 41,4 % à 86,4 %, dépassant o1-preview de +4,5 % et +0,9 %. Lors de l'Olympiade Américaine de Mathématiques (AIME), rStar-Math résout en moyenne 53,3 % (8/15) des problèmes, se classant parmi les 20 % des élèves de mathématiques les plus brillants du lycée. Le code et les données seront disponibles sur https://github.com/microsoft/rStar.
English
We present rStar-Math to demonstrate that small language models (SLMs) can
rival or even surpass the math reasoning capability of OpenAI o1, without
distillation from superior models. rStar-Math achieves this by exercising "deep
thinking" through Monte Carlo Tree Search (MCTS), where a math policy SLM
performs test-time search guided by an SLM-based process reward model.
rStar-Math introduces three innovations to tackle the challenges in training
the two SLMs: (1) a novel code-augmented CoT data sythesis method, which
performs extensive MCTS rollouts to generate step-by-step verified reasoning
trajectories used to train the policy SLM; (2) a novel process reward model
training method that avoids na\"ive step-level score annotation, yielding a
more effective process preference model (PPM); (3) a self-evolution recipe in
which the policy SLM and PPM are built from scratch and iteratively evolved to
improve reasoning capabilities. Through 4 rounds of self-evolution with
millions of synthesized solutions for 747k math problems, rStar-Math boosts
SLMs' math reasoning to state-of-the-art levels. On the MATH benchmark, it
improves Qwen2.5-Math-7B from 58.8% to 90.0% and Phi3-mini-3.8B from 41.4% to
86.4%, surpassing o1-preview by +4.5% and +0.9%. On the USA Math Olympiad
(AIME), rStar-Math solves an average of 53.3% (8/15) of problems, ranking among
the top 20% the brightest high school math students. Code and data will be
available at https://github.com/microsoft/rStar.Summary
AI-Generated Summary