rStar2-Agent: Technisch Rapport over Agentisch Redeneren
rStar2-Agent: Agentic Reasoning Technical Report
August 28, 2025
Auteurs: Ning Shang, Yifei Liu, Yi Zhu, Li Lyna Zhang, Weijiang Xu, Xinyu Guan, Buze Zhang, Bingcheng Dong, Xudong Zhou, Bowen Zhang, Ying Xin, Ziming Miao, Scarlett Li, Fan Yang, Mao Yang
cs.AI
Samenvatting
We introduceren rStar2-Agent, een 14B wiskundig redeneermodel getraind met agent-gebaseerde reinforcement learning om prestaties op het hoogste niveau te bereiken. Naast de huidige lange Chain-of-Thought (CoT) toont het model geavanceerde cognitieve gedragingen, zoals zorgvuldig nadenken voordat Python-codetools worden gebruikt en reflecteren op feedback van code-uitvoering om autonoom tussenstappen in complexe probleemoplossing te verkennen, verifiëren en verfijnen. Deze mogelijkheid wordt mogelijk gemaakt door drie belangrijke innovaties die agent-gebaseerde RL effectief maken op grote schaal: (i) een efficiënte RL-infrastructuur met een betrouwbare Python-codeomgeving die hoogwaardige uitvoering ondersteunt en de hoge rollout-kosten beperkt, waardoor training op beperkte GPU-bronnen (64 MI300X GPU's) mogelijk wordt; (ii) GRPO-RoC, een agent-gebaseerd RL-algoritme met een Resample-on-Correct rollout-strategie die de inherente omgevingsruis van codetools aanpakt, waardoor het model effectiever kan redeneren in een codeomgeving; (iii) Een efficiënt agent-trainingsrecept dat begint met niet-redenerende Supervised Fine-Tuning (SFT) en doorloopt naar multi-RL-fasen, wat geavanceerde cognitieve vaardigheden oplevert tegen minimale rekenkosten. Hierdoor wordt een vooraf getraind 14B-model in slechts 510 RL-stappen binnen één week naar de staat van de kunst gebracht, met gemiddelde pass@1-scores van 80,6% op AIME24 en 69,8% op AIME25, waarmee DeepSeek-R1 (671B) wordt overtroffen met aanzienlijk kortere antwoorden. Naast wiskunde toont rStar2-Agent-14B ook sterke generalisatie naar alignment, wetenschappelijk redeneren en agent-gebaseerde tool-gebruikstaken. Code en trainingsrecepten zijn beschikbaar op https://github.com/microsoft/rStar.
English
We introduce rStar2-Agent, a 14B math reasoning model trained with agentic
reinforcement learning to achieve frontier-level performance. Beyond current
long CoT, the model demonstrates advanced cognitive behaviors, such as thinking
carefully before using Python coding tools and reflecting on code execution
feedback to autonomously explore, verify, and refine intermediate steps in
complex problem-solving. This capability is enabled through three key
innovations that makes agentic RL effective at scale: (i) an efficient RL
infrastructure with a reliable Python code environment that supports
high-throughput execution and mitigates the high rollout costs, enabling
training on limited GPU resources (64 MI300X GPUs); (ii) GRPO-RoC, an agentic
RL algorithm with a Resample-on-Correct rollout strategy that addresses the
inherent environment noises from coding tools, allowing the model to reason
more effectively in a code environment; (iii) An efficient agent training
recipe that starts with non-reasoning SFT and progresses through multi-RL
stages, yielding advanced cognitive abilities with minimal compute cost. To
this end, rStar2-Agent boosts a pre-trained 14B model to state of the art in
only 510 RL steps within one week, achieving average pass@1 scores of 80.6% on
AIME24 and 69.8% on AIME25, surpassing DeepSeek-R1 (671B) with significantly
shorter responses. Beyond mathematics, rStar2-Agent-14B also demonstrates
strong generalization to alignment, scientific reasoning, and agentic tool-use
tasks. Code and training recipes are available at
https://github.com/microsoft/rStar.