rStar2-Agente: Rapporto Tecnico sul Ragionamento Agente
rStar2-Agent: Agentic Reasoning Technical Report
August 28, 2025
Autori: Ning Shang, Yifei Liu, Yi Zhu, Li Lyna Zhang, Weijiang Xu, Xinyu Guan, Buze Zhang, Bingcheng Dong, Xudong Zhou, Bowen Zhang, Ying Xin, Ziming Miao, Scarlett Li, Fan Yang, Mao Yang
cs.AI
Abstract
Introduciamo rStar2-Agent, un modello di ragionamento matematico da 14B addestrato con apprendimento per rinforzo agentico per raggiungere prestazioni di livello avanzato. Oltre agli attuali approcci di Chain-of-Thought (CoT) estesi, il modello dimostra comportamenti cognitivi avanzati, come riflettere attentamente prima di utilizzare strumenti di codifica Python e analizzare il feedback dell'esecuzione del codice per esplorare, verificare e affinare autonomamente i passaggi intermedi nella risoluzione di problemi complessi. Questa capacità è resa possibile grazie a tre innovazioni chiave che rendono efficace l'apprendimento per rinforzo agentico su larga scala: (i) un'infrastruttura RL efficiente con un ambiente Python affidabile che supporta l'esecuzione ad alta velocità e mitiga i costi elevati di rollout, consentendo l'addestramento con risorse GPU limitate (64 GPU MI300X); (ii) GRPO-RoC, un algoritmo RL agentico con una strategia di rollout Resample-on-Correct che affronta i rumori intrinseci dell'ambiente derivanti dagli strumenti di codifica, permettendo al modello di ragionare in modo più efficace in un ambiente di codice; (iii) Una ricetta efficiente per l'addestramento di agenti che inizia con un SFT non orientato al ragionamento e progredisce attraverso fasi multi-RL, ottenendo abilità cognitive avanzate con un costo computazionale minimo. In questo modo, rStar2-Agent porta un modello pre-addestrato da 14B allo stato dell'arte in soli 510 passi RL entro una settimana, raggiungendo punteggi medi pass@1 dell'80,6% su AIME24 e del 69,8% su AIME25, superando DeepSeek-R1 (671B) con risposte significativamente più brevi. Oltre alla matematica, rStar2-Agent-14B dimostra anche una forte generalizzazione in compiti di allineamento, ragionamento scientifico e utilizzo di strumenti agentici. Il codice e le ricette di addestramento sono disponibili su https://github.com/microsoft/rStar.
English
We introduce rStar2-Agent, a 14B math reasoning model trained with agentic
reinforcement learning to achieve frontier-level performance. Beyond current
long CoT, the model demonstrates advanced cognitive behaviors, such as thinking
carefully before using Python coding tools and reflecting on code execution
feedback to autonomously explore, verify, and refine intermediate steps in
complex problem-solving. This capability is enabled through three key
innovations that makes agentic RL effective at scale: (i) an efficient RL
infrastructure with a reliable Python code environment that supports
high-throughput execution and mitigates the high rollout costs, enabling
training on limited GPU resources (64 MI300X GPUs); (ii) GRPO-RoC, an agentic
RL algorithm with a Resample-on-Correct rollout strategy that addresses the
inherent environment noises from coding tools, allowing the model to reason
more effectively in a code environment; (iii) An efficient agent training
recipe that starts with non-reasoning SFT and progresses through multi-RL
stages, yielding advanced cognitive abilities with minimal compute cost. To
this end, rStar2-Agent boosts a pre-trained 14B model to state of the art in
only 510 RL steps within one week, achieving average pass@1 scores of 80.6% on
AIME24 and 69.8% on AIME25, surpassing DeepSeek-R1 (671B) with significantly
shorter responses. Beyond mathematics, rStar2-Agent-14B also demonstrates
strong generalization to alignment, scientific reasoning, and agentic tool-use
tasks. Code and training recipes are available at
https://github.com/microsoft/rStar.