rStar-Math : Les petits LLM peuvent maîtriser le raisonnement mathématique avec une réflexion profonde auto-évoluée.rStar-Math: Small LLMs Can Master Math Reasoning with Self-Evolved Deep
Thinking
Nous présentons rStar-Math pour démontrer que les petits modèles de langage (SLM) peuvent rivaliser, voire surpasser, la capacité de raisonnement mathématique de l'OpenAI o1, sans distillation à partir de modèles supérieurs. rStar-Math parvient à cela en exerçant une "réflexion approfondie" à travers la recherche arborescente Monte Carlo (MCTS), où un SLM de politique mathématique effectue une recherche en temps réel guidée par un modèle de récompense de processus basé sur un SLM. rStar-Math introduit trois innovations pour relever les défis liés à l'entraînement des deux SLM : (1) une nouvelle méthode de synthèse de données CoT augmentée de code, qui effectue des déploiements MCTS étendus pour générer des trajectoires de raisonnement vérifiées étape par étape utilisées pour entraîner le SLM de politique ; (2) une nouvelle méthode d'entraînement du modèle de récompense de processus qui évite l'annotation naïve des scores au niveau des étapes, produisant un modèle de préférence de processus (PPM) plus efficace ; (3) une recette d'auto-évolution dans laquelle le SLM de politique et le PPM sont construits à partir de zéro et évoluent de manière itérative pour améliorer les capacités de raisonnement. À travers 4 cycles d'auto-évolution avec des millions de solutions synthétisées pour 747 000 problèmes mathématiques, rStar-Math améliore le raisonnement mathématique des SLM à des niveaux de pointe. Sur le banc d'essai MATH, il améliore Qwen2.5-Math-7B de 58,8 % à 90,0 % et Phi3-mini-3.8B de 41,4 % à 86,4 %, dépassant o1-preview de +4,5 % et +0,9 %. Lors de l'Olympiade Américaine de Mathématiques (AIME), rStar-Math résout en moyenne 53,3 % (8/15) des problèmes, se classant parmi les 20 % des élèves de mathématiques les plus brillants du lycée. Le code et les données seront disponibles sur https://github.com/microsoft/rStar.