rStar-Math: Маленькие LLM могут овладеть математическим мышлением с помощью саморазвивающегося глубокого мышления.
rStar-Math: Small LLMs Can Master Math Reasoning with Self-Evolved Deep Thinking
January 8, 2025
Авторы: Xinyu Guan, Li Lyna Zhang, Yifei Liu, Ning Shang, Youran Sun, Yi Zhu, Fan Yang, Mao Yang
cs.AI
Аннотация
Мы представляем rStar-Math для демонстрации того, что небольшие языковые модели (SLM) могут соперничать или даже превзойти математическую способность рассуждения OpenAI o1, без дистилляции от более совершенных моделей. rStar-Math достигает этого, используя "глубокое мышление" через Монте-Карло поиск по дереву (MCTS), где математическая политика SLM выполняет поиск во время тестирования, направляемый моделью вознаграждения процесса на основе SLM. rStar-Math вводит три инновации для решения проблем при обучении двух SLM: (1) новый метод синтеза данных CoT с кодом, который выполняет обширные прокрутки MCTS для генерации пошаговых проверенных траекторий рассуждений, используемых для обучения политики SLM; (2) новый метод обучения модели вознаграждения процесса, который избегает наивной аннотации оценки на уровне шага, обеспечивая более эффективную модель предпочтений процесса (PPM); (3) рецепт самоэволюции, в котором политика SLM и PPM создаются с нуля и итеративно эволюционируются для улучшения способностей к рассуждению. Через 4 раунда самоэволюции с миллионами синтезированных решений для 747 тыс. математических проблем, rStar-Math повышает математическое рассуждение SLM до уровня передовых технологий. На бенчмарке MATH он улучшает Qwen2.5-Math-7B с 58,8% до 90,0% и Phi3-mini-3.8B с 41,4% до 86,4%, превосходя o1-preview на +4,5% и +0,9%. На Американской математической олимпиаде (AIME) rStar-Math решает в среднем 53,3% (8 из 15) задач, входя в топ-20% самых ярких старшеклассников по математике. Код и данные будут доступны по адресу https://github.com/microsoft/rStar.
English
We present rStar-Math to demonstrate that small language models (SLMs) can
rival or even surpass the math reasoning capability of OpenAI o1, without
distillation from superior models. rStar-Math achieves this by exercising "deep
thinking" through Monte Carlo Tree Search (MCTS), where a math policy SLM
performs test-time search guided by an SLM-based process reward model.
rStar-Math introduces three innovations to tackle the challenges in training
the two SLMs: (1) a novel code-augmented CoT data sythesis method, which
performs extensive MCTS rollouts to generate step-by-step verified reasoning
trajectories used to train the policy SLM; (2) a novel process reward model
training method that avoids na\"ive step-level score annotation, yielding a
more effective process preference model (PPM); (3) a self-evolution recipe in
which the policy SLM and PPM are built from scratch and iteratively evolved to
improve reasoning capabilities. Through 4 rounds of self-evolution with
millions of synthesized solutions for 747k math problems, rStar-Math boosts
SLMs' math reasoning to state-of-the-art levels. On the MATH benchmark, it
improves Qwen2.5-Math-7B from 58.8% to 90.0% and Phi3-mini-3.8B from 41.4% to
86.4%, surpassing o1-preview by +4.5% and +0.9%. On the USA Math Olympiad
(AIME), rStar-Math solves an average of 53.3% (8/15) of problems, ranking among
the top 20% the brightest high school math students. Code and data will be
available at https://github.com/microsoft/rStar.Summary
AI-Generated Summary