rStar-Math: Kleine LLMs können mathematische Argumentation mit selbstentwickeltem tiefem Denken meistern.
rStar-Math: Small LLMs Can Master Math Reasoning with Self-Evolved Deep Thinking
January 8, 2025
Autoren: Xinyu Guan, Li Lyna Zhang, Yifei Liu, Ning Shang, Youran Sun, Yi Zhu, Fan Yang, Mao Yang
cs.AI
Zusammenfassung
Wir präsentieren rStar-Math, um zu zeigen, dass kleine Sprachmodelle (SLMs) die mathematische Denkfähigkeit von OpenAI o1 erreichen oder sogar übertreffen können, ohne von überlegenen Modellen destilliert zu werden. rStar-Math erreicht dies, indem es "tiefes Denken" durch Monte-Carlo-Baumsuche (MCTS) ausübt, bei der ein mathematisches Richtlinien-SLM eine Testzeit-Suche durchführt, die von einem auf SLM basierenden Prozessbelohnungsmodell geleitet wird. rStar-Math führt drei Innovationen ein, um die Herausforderungen beim Training der beiden SLMs zu bewältigen: (1) eine neuartige Code-erweiterte CoT-Datensynthesemethode, die umfangreiche MCTS-Durchläufe durchführt, um schrittweise überprüfte Denkwege zu generieren, die zur Schulung des Richtlinien-SLM verwendet werden; (2) eine neuartige Methode zur Schulung des Prozessbelohnungsmodells, die naive Schritt-Ebene-Punktzahlenannotationen vermeidet und ein effektiveres Prozesspräferenzmodell (PPM) liefert; (3) ein Selbstentwicklungsrezept, bei dem das Richtlinien-SLM und das PPM von Grund auf aufgebaut und iterativ weiterentwickelt werden, um die Denkfähigkeiten zu verbessern. Durch 4 Runden der Selbstentwicklung mit Millionen synthetisierter Lösungen für 747k mathematische Probleme steigert rStar-Math die mathematische Denkfähigkeit der SLMs auf State-of-the-Art-Niveau. Auf dem MATH-Benchmark verbessert es Qwen2.5-Math-7B von 58,8 % auf 90,0 % und Phi3-mini-3.8B von 41,4 % auf 86,4 %, wobei es o1-preview um +4,5 % bzw. +0,9 % übertrifft. Bei der USA Mathematik-Olympiade (AIME) löst rStar-Math durchschnittlich 53,3 % (8/15) der Probleme und rangiert unter den besten 20 % der hellsten Mathematikschüler der Oberstufe. Code und Daten sind verfügbar unter https://github.com/microsoft/rStar.
English
We present rStar-Math to demonstrate that small language models (SLMs) can
rival or even surpass the math reasoning capability of OpenAI o1, without
distillation from superior models. rStar-Math achieves this by exercising "deep
thinking" through Monte Carlo Tree Search (MCTS), where a math policy SLM
performs test-time search guided by an SLM-based process reward model.
rStar-Math introduces three innovations to tackle the challenges in training
the two SLMs: (1) a novel code-augmented CoT data sythesis method, which
performs extensive MCTS rollouts to generate step-by-step verified reasoning
trajectories used to train the policy SLM; (2) a novel process reward model
training method that avoids na\"ive step-level score annotation, yielding a
more effective process preference model (PPM); (3) a self-evolution recipe in
which the policy SLM and PPM are built from scratch and iteratively evolved to
improve reasoning capabilities. Through 4 rounds of self-evolution with
millions of synthesized solutions for 747k math problems, rStar-Math boosts
SLMs' math reasoning to state-of-the-art levels. On the MATH benchmark, it
improves Qwen2.5-Math-7B from 58.8% to 90.0% and Phi3-mini-3.8B from 41.4% to
86.4%, surpassing o1-preview by +4.5% and +0.9%. On the USA Math Olympiad
(AIME), rStar-Math solves an average of 53.3% (8/15) of problems, ranking among
the top 20% the brightest high school math students. Code and data will be
available at https://github.com/microsoft/rStar.Summary
AI-Generated Summary