rStar2-Agent: Technischer Bericht zum agentenbasierten Denken
rStar2-Agent: Agentic Reasoning Technical Report
August 28, 2025
papers.authors: Ning Shang, Yifei Liu, Yi Zhu, Li Lyna Zhang, Weijiang Xu, Xinyu Guan, Buze Zhang, Bingcheng Dong, Xudong Zhou, Bowen Zhang, Ying Xin, Ziming Miao, Scarlett Li, Fan Yang, Mao Yang
cs.AI
papers.abstract
Wir stellen rStar2-Agent vor, ein 14B-Modell für mathematisches Denken, das mit agentenbasierter Verstärkungslernmethode trainiert wurde, um Spitzenleistungen zu erzielen. Über den aktuellen langen Chain-of-Thought (CoT) hinaus zeigt das Modell fortgeschrittene kognitive Verhaltensweisen, wie beispielsweise sorgfältiges Nachdenken vor der Verwendung von Python-Codierungswerkzeugen und die Reflexion über Code-Ausführungsfeedback, um Zwischenschritte bei der Lösung komplexer Probleme autonom zu erkunden, zu überprüfen und zu verfeinern. Diese Fähigkeit wird durch drei Schlüsselinnovationen ermöglicht, die agentenbasiertes Reinforcement Learning (RL) in großem Maßstab effektiv machen: (i) eine effiziente RL-Infrastruktur mit einer zuverlässigen Python-Code-Umgebung, die eine hohe Durchsatzausführung unterstützt und die hohen Rollout-Kosten reduziert, wodurch das Training mit begrenzten GPU-Ressourcen (64 MI300X GPUs) ermöglicht wird; (ii) GRPO-RoC, ein agentenbasiertes RL-Algorithmus mit einer Resample-on-Correct-Rollout-Strategie, die die inhärenten Umgebungsgeräusche von Codierungswerkzeugen adressiert und es dem Modell ermöglicht, in einer Code-Umgebung effektiver zu schlussfolgern; (iii) ein effizientes Agenten-Trainingsrezept, das mit einem nicht-schlussfolgernden Supervised Fine-Tuning (SFT) beginnt und sich durch mehrere RL-Stufen entwickelt, wodurch fortgeschrittene kognitive Fähigkeiten mit minimalem Rechenaufwand erreicht werden. Dadurch steigert rStar2-Agent ein vortrainiertes 14B-Modell in nur 510 RL-Schritten innerhalb einer Woche auf den neuesten Stand der Technik und erreicht durchschnittliche Pass@1-Werte von 80,6 % auf AIME24 und 69,8 % auf AIME25, wobei es DeepSeek-R1 (671B) mit deutlich kürzeren Antworten übertrifft. Über Mathematik hinaus zeigt rStar2-Agent-14B auch eine starke Generalisierungsfähigkeit in den Bereichen Alignment, wissenschaftliches Denken und agentenbasierte Werkzeugnutzung. Code und Trainingsrezepte sind unter https://github.com/microsoft/rStar verfügbar.
English
We introduce rStar2-Agent, a 14B math reasoning model trained with agentic
reinforcement learning to achieve frontier-level performance. Beyond current
long CoT, the model demonstrates advanced cognitive behaviors, such as thinking
carefully before using Python coding tools and reflecting on code execution
feedback to autonomously explore, verify, and refine intermediate steps in
complex problem-solving. This capability is enabled through three key
innovations that makes agentic RL effective at scale: (i) an efficient RL
infrastructure with a reliable Python code environment that supports
high-throughput execution and mitigates the high rollout costs, enabling
training on limited GPU resources (64 MI300X GPUs); (ii) GRPO-RoC, an agentic
RL algorithm with a Resample-on-Correct rollout strategy that addresses the
inherent environment noises from coding tools, allowing the model to reason
more effectively in a code environment; (iii) An efficient agent training
recipe that starts with non-reasoning SFT and progresses through multi-RL
stages, yielding advanced cognitive abilities with minimal compute cost. To
this end, rStar2-Agent boosts a pre-trained 14B model to state of the art in
only 510 RL steps within one week, achieving average pass@1 scores of 80.6% on
AIME24 and 69.8% on AIME25, surpassing DeepSeek-R1 (671B) with significantly
shorter responses. Beyond mathematics, rStar2-Agent-14B also demonstrates
strong generalization to alignment, scientific reasoning, and agentic tool-use
tasks. Code and training recipes are available at
https://github.com/microsoft/rStar.