rStar-Math: Kleine LLMs können mathematische Argumentation mit selbstentwickeltem tiefem Denken meistern.rStar-Math: Small LLMs Can Master Math Reasoning with Self-Evolved Deep
Thinking
Wir präsentieren rStar-Math, um zu zeigen, dass kleine Sprachmodelle (SLMs) die mathematische Denkfähigkeit von OpenAI o1 erreichen oder sogar übertreffen können, ohne von überlegenen Modellen destilliert zu werden. rStar-Math erreicht dies, indem es "tiefes Denken" durch Monte-Carlo-Baumsuche (MCTS) ausübt, bei der ein mathematisches Richtlinien-SLM eine Testzeit-Suche durchführt, die von einem auf SLM basierenden Prozessbelohnungsmodell geleitet wird. rStar-Math führt drei Innovationen ein, um die Herausforderungen beim Training der beiden SLMs zu bewältigen: (1) eine neuartige Code-erweiterte CoT-Datensynthesemethode, die umfangreiche MCTS-Durchläufe durchführt, um schrittweise überprüfte Denkwege zu generieren, die zur Schulung des Richtlinien-SLM verwendet werden; (2) eine neuartige Methode zur Schulung des Prozessbelohnungsmodells, die naive Schritt-Ebene-Punktzahlenannotationen vermeidet und ein effektiveres Prozesspräferenzmodell (PPM) liefert; (3) ein Selbstentwicklungsrezept, bei dem das Richtlinien-SLM und das PPM von Grund auf aufgebaut und iterativ weiterentwickelt werden, um die Denkfähigkeiten zu verbessern. Durch 4 Runden der Selbstentwicklung mit Millionen synthetisierter Lösungen für 747k mathematische Probleme steigert rStar-Math die mathematische Denkfähigkeit der SLMs auf State-of-the-Art-Niveau. Auf dem MATH-Benchmark verbessert es Qwen2.5-Math-7B von 58,8 % auf 90,0 % und Phi3-mini-3.8B von 41,4 % auf 86,4 %, wobei es o1-preview um +4,5 % bzw. +0,9 % übertrifft. Bei der USA Mathematik-Olympiade (AIME) löst rStar-Math durchschnittlich 53,3 % (8/15) der Probleme und rangiert unter den besten 20 % der hellsten Mathematikschüler der Oberstufe. Code und Daten sind verfügbar unter https://github.com/microsoft/rStar.