rStar-Math : Les petits LLM peuvent maîtriser le raisonnement mathématique avec une réflexion profonde auto-évoluée.

papers.abstract

Nous présentons rStar-Math pour démontrer que les petits modèles de langage (SLM) peuvent rivaliser, voire surpasser, la capacité de raisonnement mathématique de l'OpenAI o1, sans distillation à partir de modèles supérieurs. rStar-Math parvient à cela en exerçant une "réflexion approfondie" à travers la recherche arborescente Monte Carlo (MCTS), où un SLM de politique mathématique effectue une recherche en temps réel guidée par un modèle de récompense de processus basé sur un SLM. rStar-Math introduit trois innovations pour relever les défis liés à l'entraînement des deux SLM : (1) une nouvelle méthode de synthèse de données CoT augmentée de code, qui effectue des déploiements MCTS étendus pour générer des trajectoires de raisonnement vérifiées étape par étape utilisées pour entraîner le SLM de politique ; (2) une nouvelle méthode d'entraînement du modèle de récompense de processus qui évite l'annotation naïve des scores au niveau des étapes, produisant un modèle de préférence de processus (PPM) plus efficace ; (3) une recette d'auto-évolution dans laquelle le SLM de politique et le PPM sont construits à partir de zéro et évoluent de manière itérative pour améliorer les capacités de raisonnement. À travers 4 cycles d'auto-évolution avec des millions de solutions synthétisées pour 747 000 problèmes mathématiques, rStar-Math améliore le raisonnement mathématique des SLM à des niveaux de pointe. Sur le banc d'essai MATH, il améliore Qwen2.5-Math-7B de 58,8 % à 90,0 % et Phi3-mini-3.8B de 41,4 % à 86,4 %, dépassant o1-preview de +4,5 % et +0,9 %. Lors de l'Olympiade Américaine de Mathématiques (AIME), rStar-Math résout en moyenne 53,3 % (8/15) des problèmes, se classant parmi les 20 % des élèves de mathématiques les plus brillants du lycée. Le code et les données seront disponibles sur https://github.com/microsoft/rStar.

English

We present rStar-Math to demonstrate that small language models (SLMs) can rival or even surpass the math reasoning capability of OpenAI o1, without distillation from superior models. rStar-Math achieves this by exercising "deep thinking" through Monte Carlo Tree Search (MCTS), where a math policy SLM performs test-time search guided by an SLM-based process reward model. rStar-Math introduces three innovations to tackle the challenges in training the two SLMs: (1) a novel code-augmented CoT data sythesis method, which performs extensive MCTS rollouts to generate step-by-step verified reasoning trajectories used to train the policy SLM; (2) a novel process reward model training method that avoids na\"ive step-level score annotation, yielding a more effective process preference model (PPM); (3) a self-evolution recipe in which the policy SLM and PPM are built from scratch and iteratively evolved to improve reasoning capabilities. Through 4 rounds of self-evolution with millions of synthesized solutions for 747k math problems, rStar-Math boosts SLMs' math reasoning to state-of-the-art levels. On the MATH benchmark, it improves Qwen2.5-Math-7B from 58.8% to 90.0% and Phi3-mini-3.8B from 41.4% to 86.4%, surpassing o1-preview by +4.5% and +0.9%. On the USA Math Olympiad (AIME), rStar-Math solves an average of 53.3% (8/15) of problems, ranking among the top 20% the brightest high school math students. Code and data will be available at https://github.com/microsoft/rStar.

rStar-Math : Les petits LLM peuvent maîtriser le raisonnement mathématique avec une réflexion profonde auto-évoluée.

rStar-Math: Small LLMs Can Master Math Reasoning with Self-Evolved Deep Thinking

papers.abstract

Support