rStar-Math: Kleine LLMs können mathematische Argumentation mit selbstentwickeltem tiefem Denken meistern.

papers.abstract

Wir präsentieren rStar-Math, um zu zeigen, dass kleine Sprachmodelle (SLMs) die mathematische Denkfähigkeit von OpenAI o1 erreichen oder sogar übertreffen können, ohne von überlegenen Modellen destilliert zu werden. rStar-Math erreicht dies, indem es "tiefes Denken" durch Monte-Carlo-Baumsuche (MCTS) ausübt, bei der ein mathematisches Richtlinien-SLM eine Testzeit-Suche durchführt, die von einem auf SLM basierenden Prozessbelohnungsmodell geleitet wird. rStar-Math führt drei Innovationen ein, um die Herausforderungen beim Training der beiden SLMs zu bewältigen: (1) eine neuartige Code-erweiterte CoT-Datensynthesemethode, die umfangreiche MCTS-Durchläufe durchführt, um schrittweise überprüfte Denkwege zu generieren, die zur Schulung des Richtlinien-SLM verwendet werden; (2) eine neuartige Methode zur Schulung des Prozessbelohnungsmodells, die naive Schritt-Ebene-Punktzahlenannotationen vermeidet und ein effektiveres Prozesspräferenzmodell (PPM) liefert; (3) ein Selbstentwicklungsrezept, bei dem das Richtlinien-SLM und das PPM von Grund auf aufgebaut und iterativ weiterentwickelt werden, um die Denkfähigkeiten zu verbessern. Durch 4 Runden der Selbstentwicklung mit Millionen synthetisierter Lösungen für 747k mathematische Probleme steigert rStar-Math die mathematische Denkfähigkeit der SLMs auf State-of-the-Art-Niveau. Auf dem MATH-Benchmark verbessert es Qwen2.5-Math-7B von 58,8 % auf 90,0 % und Phi3-mini-3.8B von 41,4 % auf 86,4 %, wobei es o1-preview um +4,5 % bzw. +0,9 % übertrifft. Bei der USA Mathematik-Olympiade (AIME) löst rStar-Math durchschnittlich 53,3 % (8/15) der Probleme und rangiert unter den besten 20 % der hellsten Mathematikschüler der Oberstufe. Code und Daten sind verfügbar unter https://github.com/microsoft/rStar.

English

We present rStar-Math to demonstrate that small language models (SLMs) can rival or even surpass the math reasoning capability of OpenAI o1, without distillation from superior models. rStar-Math achieves this by exercising "deep thinking" through Monte Carlo Tree Search (MCTS), where a math policy SLM performs test-time search guided by an SLM-based process reward model. rStar-Math introduces three innovations to tackle the challenges in training the two SLMs: (1) a novel code-augmented CoT data sythesis method, which performs extensive MCTS rollouts to generate step-by-step verified reasoning trajectories used to train the policy SLM; (2) a novel process reward model training method that avoids na\"ive step-level score annotation, yielding a more effective process preference model (PPM); (3) a self-evolution recipe in which the policy SLM and PPM are built from scratch and iteratively evolved to improve reasoning capabilities. Through 4 rounds of self-evolution with millions of synthesized solutions for 747k math problems, rStar-Math boosts SLMs' math reasoning to state-of-the-art levels. On the MATH benchmark, it improves Qwen2.5-Math-7B from 58.8% to 90.0% and Phi3-mini-3.8B from 41.4% to 86.4%, surpassing o1-preview by +4.5% and +0.9%. On the USA Math Olympiad (AIME), rStar-Math solves an average of 53.3% (8/15) of problems, ranking among the top 20% the brightest high school math students. Code and data will be available at https://github.com/microsoft/rStar.

rStar-Math: Kleine LLMs können mathematische Argumentation mit selbstentwickeltem tiefem Denken meistern.

rStar-Math: Small LLMs Can Master Math Reasoning with Self-Evolved Deep Thinking

papers.abstract

Support