rStar2-Agent : Rapport Technique sur le Raisonnement Agentique
rStar2-Agent: Agentic Reasoning Technical Report
August 28, 2025
papers.authors: Ning Shang, Yifei Liu, Yi Zhu, Li Lyna Zhang, Weijiang Xu, Xinyu Guan, Buze Zhang, Bingcheng Dong, Xudong Zhou, Bowen Zhang, Ying Xin, Ziming Miao, Scarlett Li, Fan Yang, Mao Yang
cs.AI
papers.abstract
Nous présentons rStar2-Agent, un modèle de raisonnement mathématique de 14 milliards de paramètres entraîné avec un apprentissage par renforcement agentique pour atteindre des performances de pointe. Au-delà des approches actuelles de chaînes de pensée (CoT) longues, le modèle démontre des comportements cognitifs avancés, tels que réfléchir attentivement avant d'utiliser des outils de codage Python et analyser les retours d'exécution de code pour explorer, vérifier et affiner de manière autonome les étapes intermédiaires dans la résolution de problèmes complexes. Cette capacité est rendue possible grâce à trois innovations clés qui rendent l'apprentissage par renforcement agentique efficace à grande échelle : (i) une infrastructure d'apprentissage par renforcement efficace avec un environnement de code Python fiable, supportant une exécution à haut débit et atténuant les coûts élevés de déploiement, permettant ainsi l'entraînement avec des ressources GPU limitées (64 GPU MI300X) ; (ii) GRPO-RoC, un algorithme d'apprentissage par renforcement agentique avec une stratégie de déploiement Resample-on-Correct qui gère les bruits inhérents de l'environnement liés aux outils de codage, permettant au modèle de raisonner plus efficacement dans un environnement de code ; (iii) Une recette d'entraînement agentique efficace qui commence par un apprentissage supervisé (SFT) non raisonné et progresse à travers plusieurs étapes d'apprentissage par renforcement, développant des capacités cognitives avancées avec un coût de calcul minimal. Ainsi, rStar2-Agent améliore un modèle pré-entraîné de 14 milliards de paramètres pour atteindre l'état de l'art en seulement 510 étapes d'apprentissage par renforcement en une semaine, obtenant des scores moyens pass@1 de 80,6 % sur AIME24 et 69,8 % sur AIME25, surpassant DeepSeek-R1 (671 milliards de paramètres) avec des réponses significativement plus courtes. Au-delà des mathématiques, rStar2-Agent-14B démontre également une forte généralisation dans des tâches d'alignement, de raisonnement scientifique et d'utilisation d'outils agentiques. Le code et les recettes d'entraînement sont disponibles à l'adresse https://github.com/microsoft/rStar.
English
We introduce rStar2-Agent, a 14B math reasoning model trained with agentic
reinforcement learning to achieve frontier-level performance. Beyond current
long CoT, the model demonstrates advanced cognitive behaviors, such as thinking
carefully before using Python coding tools and reflecting on code execution
feedback to autonomously explore, verify, and refine intermediate steps in
complex problem-solving. This capability is enabled through three key
innovations that makes agentic RL effective at scale: (i) an efficient RL
infrastructure with a reliable Python code environment that supports
high-throughput execution and mitigates the high rollout costs, enabling
training on limited GPU resources (64 MI300X GPUs); (ii) GRPO-RoC, an agentic
RL algorithm with a Resample-on-Correct rollout strategy that addresses the
inherent environment noises from coding tools, allowing the model to reason
more effectively in a code environment; (iii) An efficient agent training
recipe that starts with non-reasoning SFT and progresses through multi-RL
stages, yielding advanced cognitive abilities with minimal compute cost. To
this end, rStar2-Agent boosts a pre-trained 14B model to state of the art in
only 510 RL steps within one week, achieving average pass@1 scores of 80.6% on
AIME24 and 69.8% on AIME25, surpassing DeepSeek-R1 (671B) with significantly
shorter responses. Beyond mathematics, rStar2-Agent-14B also demonstrates
strong generalization to alignment, scientific reasoning, and agentic tool-use
tasks. Code and training recipes are available at
https://github.com/microsoft/rStar.