rStar-Math : Les petits LLM peuvent maßtriser le raisonnement mathématique avec une réflexion profonde auto-évoluée.rStar-Math: Small LLMs Can Master Math Reasoning with Self-Evolved Deep
Thinking
Nous prĂ©sentons rStar-Math pour dĂ©montrer que les petits modĂšles de langage (SLM) peuvent rivaliser, voire surpasser, la capacitĂ© de raisonnement mathĂ©matique de l'OpenAI o1, sans distillation Ă partir de modĂšles supĂ©rieurs. rStar-Math parvient Ă cela en exerçant une "rĂ©flexion approfondie" Ă travers la recherche arborescente Monte Carlo (MCTS), oĂč un SLM de politique mathĂ©matique effectue une recherche en temps rĂ©el guidĂ©e par un modĂšle de rĂ©compense de processus basĂ© sur un SLM. rStar-Math introduit trois innovations pour relever les dĂ©fis liĂ©s Ă l'entraĂźnement des deux SLM : (1) une nouvelle mĂ©thode de synthĂšse de donnĂ©es CoT augmentĂ©e de code, qui effectue des dĂ©ploiements MCTS Ă©tendus pour gĂ©nĂ©rer des trajectoires de raisonnement vĂ©rifiĂ©es Ă©tape par Ă©tape utilisĂ©es pour entraĂźner le SLM de politique ; (2) une nouvelle mĂ©thode d'entraĂźnement du modĂšle de rĂ©compense de processus qui Ă©vite l'annotation naĂŻve des scores au niveau des Ă©tapes, produisant un modĂšle de prĂ©fĂ©rence de processus (PPM) plus efficace ; (3) une recette d'auto-Ă©volution dans laquelle le SLM de politique et le PPM sont construits Ă partir de zĂ©ro et Ă©voluent de maniĂšre itĂ©rative pour amĂ©liorer les capacitĂ©s de raisonnement. Ă travers 4 cycles d'auto-Ă©volution avec des millions de solutions synthĂ©tisĂ©es pour 747 000 problĂšmes mathĂ©matiques, rStar-Math amĂ©liore le raisonnement mathĂ©matique des SLM Ă des niveaux de pointe. Sur le banc d'essai MATH, il amĂ©liore Qwen2.5-Math-7B de 58,8 % Ă 90,0 % et Phi3-mini-3.8B de 41,4 % Ă 86,4 %, dĂ©passant o1-preview de +4,5 % et +0,9 %. Lors de l'Olympiade AmĂ©ricaine de MathĂ©matiques (AIME), rStar-Math rĂ©sout en moyenne 53,3 % (8/15) des problĂšmes, se classant parmi les 20 % des Ă©lĂšves de mathĂ©matiques les plus brillants du lycĂ©e. Le code et les donnĂ©es seront disponibles sur https://github.com/microsoft/rStar.