ChatPaper.aiChatPaper

rStar-Math: Kleine LLM's kunnen wiskundig redeneren beheersen met zelf geëvolueerd diep denken

rStar-Math: Small LLMs Can Master Math Reasoning with Self-Evolved Deep Thinking

January 8, 2025
Auteurs: Xinyu Guan, Li Lyna Zhang, Yifei Liu, Ning Shang, Youran Sun, Yi Zhu, Fan Yang, Mao Yang
cs.AI

Samenvatting

We presenteren rStar-Math om aan te tonen dat kleine taalmodellen (SLM's) de wiskundige redeneervaardigheid van OpenAI o1 kunnen evenaren of zelfs overtreffen, zonder distillatie van superieure modellen. rStar-Math bereikt dit door "diep denken" toe te passen via Monte Carlo Tree Search (MCTS), waarbij een wiskundig beleids-SLM testtijdzoekopdrachten uitvoert die worden geleid door een op SLM gebaseerd procesbeloningsmodel. rStar-Math introduceert drie innovaties om de uitdagingen bij het trainen van de twee SLM's aan te pakken: (1) een nieuw code-verrijkt CoT-gegevenssynthesemethode, die uitgebreide MCTS-rollouts uitvoert om stapsgewijs geverifieerde redeneertrajecten te genereren die worden gebruikt om het beleids-SLM te trainen; (2) een nieuwe methode voor het trainen van het procesbeloningsmodel die naïeve annotatie op stapniveau vermijdt, resulterend in een effectiever procesvoorkeursmodel (PPM); (3) een zelfevolutierecept waarbij het beleids-SLM en PPM vanaf nul worden opgebouwd en iteratief worden geëvolueerd om redeneervaardigheden te verbeteren. Door 4 rondes van zelfevolutie met miljoenen gesynthetiseerde oplossingen voor 747k wiskundige problemen, verbetert rStar-Math de wiskundige redenering van SLM's tot state-of-the-art niveaus. Op de MATH-benchmark verbetert het Qwen2.5-Math-7B van 58,8% naar 90,0% en Phi3-mini-3.8B van 41,4% naar 86,4%, waarbij het o1-preview overtreft met +4,5% en +0,9%. Op de USA Math Olympiad (AIME) lost rStar-Math gemiddeld 53,3% (8/15) van de problemen op, waarmee het behoort tot de top 20% van de meest getalenteerde middelbare school wiskundestudenten. Code en gegevens zijn beschikbaar op https://github.com/microsoft/rStar.
English
We present rStar-Math to demonstrate that small language models (SLMs) can rival or even surpass the math reasoning capability of OpenAI o1, without distillation from superior models. rStar-Math achieves this by exercising "deep thinking" through Monte Carlo Tree Search (MCTS), where a math policy SLM performs test-time search guided by an SLM-based process reward model. rStar-Math introduces three innovations to tackle the challenges in training the two SLMs: (1) a novel code-augmented CoT data sythesis method, which performs extensive MCTS rollouts to generate step-by-step verified reasoning trajectories used to train the policy SLM; (2) a novel process reward model training method that avoids na\"ive step-level score annotation, yielding a more effective process preference model (PPM); (3) a self-evolution recipe in which the policy SLM and PPM are built from scratch and iteratively evolved to improve reasoning capabilities. Through 4 rounds of self-evolution with millions of synthesized solutions for 747k math problems, rStar-Math boosts SLMs' math reasoning to state-of-the-art levels. On the MATH benchmark, it improves Qwen2.5-Math-7B from 58.8% to 90.0% and Phi3-mini-3.8B from 41.4% to 86.4%, surpassing o1-preview by +4.5% and +0.9%. On the USA Math Olympiad (AIME), rStar-Math solves an average of 53.3% (8/15) of problems, ranking among the top 20% the brightest high school math students. Code and data will be available at https://github.com/microsoft/rStar.

Summary

AI-Generated Summary

PDF27642January 9, 2025