rStar2-Agent: Технический отчет по агентному рассуждению
rStar2-Agent: Agentic Reasoning Technical Report
August 28, 2025
Авторы: Ning Shang, Yifei Liu, Yi Zhu, Li Lyna Zhang, Weijiang Xu, Xinyu Guan, Buze Zhang, Bingcheng Dong, Xudong Zhou, Bowen Zhang, Ying Xin, Ziming Miao, Scarlett Li, Fan Yang, Mao Yang
cs.AI
Аннотация
Мы представляем rStar2-Agent, 14-миллиардную модель для математических рассуждений, обученную с использованием агентного обучения с подкреплением для достижения передового уровня производительности. В отличие от современных длинных цепочек рассуждений (CoT), модель демонстрирует продвинутые когнитивные способности, такие как тщательное обдумывание перед использованием инструментов Python-кодирования и анализ обратной связи от выполнения кода для автономного исследования, проверки и уточнения промежуточных шагов в решении сложных задач. Эта возможность реализована благодаря трем ключевым инновациям, которые делают агентное обучение с подкреплением эффективным в масштабе: (i) эффективная инфраструктура обучения с подкреплением с надежной средой выполнения Python-кода, которая поддерживает высокую пропускную способность и снижает высокие затраты на прогоны, что позволяет обучать модель на ограниченных ресурсах GPU (64 MI300X GPU); (ii) GRPO-RoC, алгоритм агентного обучения с подкреплением с стратегией повторной выборки при правильных ответах (Resample-on-Correct), который устраняет внутренние шумы среды, связанные с инструментами кодирования, позволяя модели более эффективно рассуждать в кодовой среде; (iii) эффективный рецепт обучения агентов, который начинается с обучения без рассуждений (SFT) и переходит к многоэтапному обучению с подкреплением, развивая продвинутые когнитивные способности при минимальных вычислительных затратах. В результате rStar2-Agent повышает производительность предварительно обученной 14-миллиардной модели до уровня state of the art всего за 510 шагов обучения с подкреплением в течение одной недели, достигая средних показателей pass@1 80,6% на AIME24 и 69,8% на AIME25, превосходя DeepSeek-R1 (671B) с значительно более короткими ответами. Помимо математики, rStar2-Agent-14B также демонстрирует сильную обобщаемость в задачах согласования, научных рассуждений и использования инструментов агентами. Код и рецепты обучения доступны по адресу https://github.com/microsoft/rStar.
English
We introduce rStar2-Agent, a 14B math reasoning model trained with agentic
reinforcement learning to achieve frontier-level performance. Beyond current
long CoT, the model demonstrates advanced cognitive behaviors, such as thinking
carefully before using Python coding tools and reflecting on code execution
feedback to autonomously explore, verify, and refine intermediate steps in
complex problem-solving. This capability is enabled through three key
innovations that makes agentic RL effective at scale: (i) an efficient RL
infrastructure with a reliable Python code environment that supports
high-throughput execution and mitigates the high rollout costs, enabling
training on limited GPU resources (64 MI300X GPUs); (ii) GRPO-RoC, an agentic
RL algorithm with a Resample-on-Correct rollout strategy that addresses the
inherent environment noises from coding tools, allowing the model to reason
more effectively in a code environment; (iii) An efficient agent training
recipe that starts with non-reasoning SFT and progresses through multi-RL
stages, yielding advanced cognitive abilities with minimal compute cost. To
this end, rStar2-Agent boosts a pre-trained 14B model to state of the art in
only 510 RL steps within one week, achieving average pass@1 scores of 80.6% on
AIME24 and 69.8% on AIME25, surpassing DeepSeek-R1 (671B) with significantly
shorter responses. Beyond mathematics, rStar2-Agent-14B also demonstrates
strong generalization to alignment, scientific reasoning, and agentic tool-use
tasks. Code and training recipes are available at
https://github.com/microsoft/rStar.