rStar-Math: Маленькие LLM могут овладеть математическим мышлением с помощью саморазвивающегося глубокого мышления.rStar-Math: Small LLMs Can Master Math Reasoning with Self-Evolved Deep
Thinking
Мы представляем rStar-Math для демонстрации того, что небольшие языковые модели (SLM) могут соперничать или даже превзойти математическую способность рассуждения OpenAI o1, без дистилляции от более совершенных моделей. rStar-Math достигает этого, используя "глубокое мышление" через Монте-Карло поиск по дереву (MCTS), где математическая политика SLM выполняет поиск во время тестирования, направляемый моделью вознаграждения процесса на основе SLM. rStar-Math вводит три инновации для решения проблем при обучении двух SLM: (1) новый метод синтеза данных CoT с кодом, который выполняет обширные прокрутки MCTS для генерации пошаговых проверенных траекторий рассуждений, используемых для обучения политики SLM; (2) новый метод обучения модели вознаграждения процесса, который избегает наивной аннотации оценки на уровне шага, обеспечивая более эффективную модель предпочтений процесса (PPM); (3) рецепт самоэволюции, в котором политика SLM и PPM создаются с нуля и итеративно эволюционируются для улучшения способностей к рассуждению. Через 4 раунда самоэволюции с миллионами синтезированных решений для 747 тыс. математических проблем, rStar-Math повышает математическое рассуждение SLM до уровня передовых технологий. На бенчмарке MATH он улучшает Qwen2.5-Math-7B с 58,8% до 90,0% и Phi3-mini-3.8B с 41,4% до 86,4%, превосходя o1-preview на +4,5% и +0,9%. На Американской математической олимпиаде (AIME) rStar-Math решает в среднем 53,3% (8 из 15) задач, входя в топ-20% самых ярких старшеклассников по математике. Код и данные будут доступны по адресу https://github.com/microsoft/rStar.