rStar2-Agente: Rapporto Tecnico sul Ragionamento Agente

Abstract

Introduciamo rStar2-Agent, un modello di ragionamento matematico da 14B addestrato con apprendimento per rinforzo agentico per raggiungere prestazioni di livello avanzato. Oltre agli attuali approcci di Chain-of-Thought (CoT) estesi, il modello dimostra comportamenti cognitivi avanzati, come riflettere attentamente prima di utilizzare strumenti di codifica Python e analizzare il feedback dell'esecuzione del codice per esplorare, verificare e affinare autonomamente i passaggi intermedi nella risoluzione di problemi complessi. Questa capacità è resa possibile grazie a tre innovazioni chiave che rendono efficace l'apprendimento per rinforzo agentico su larga scala: (i) un'infrastruttura RL efficiente con un ambiente Python affidabile che supporta l'esecuzione ad alta velocità e mitiga i costi elevati di rollout, consentendo l'addestramento con risorse GPU limitate (64 GPU MI300X); (ii) GRPO-RoC, un algoritmo RL agentico con una strategia di rollout Resample-on-Correct che affronta i rumori intrinseci dell'ambiente derivanti dagli strumenti di codifica, permettendo al modello di ragionare in modo più efficace in un ambiente di codice; (iii) Una ricetta efficiente per l'addestramento di agenti che inizia con un SFT non orientato al ragionamento e progredisce attraverso fasi multi-RL, ottenendo abilità cognitive avanzate con un costo computazionale minimo. In questo modo, rStar2-Agent porta un modello pre-addestrato da 14B allo stato dell'arte in soli 510 passi RL entro una settimana, raggiungendo punteggi medi pass@1 dell'80,6% su AIME24 e del 69,8% su AIME25, superando DeepSeek-R1 (671B) con risposte significativamente più brevi. Oltre alla matematica, rStar2-Agent-14B dimostra anche una forte generalizzazione in compiti di allineamento, ragionamento scientifico e utilizzo di strumenti agentici. Il codice e le ricette di addestramento sono disponibili su https://github.com/microsoft/rStar.

English

We introduce rStar2-Agent, a 14B math reasoning model trained with agentic reinforcement learning to achieve frontier-level performance. Beyond current long CoT, the model demonstrates advanced cognitive behaviors, such as thinking carefully before using Python coding tools and reflecting on code execution feedback to autonomously explore, verify, and refine intermediate steps in complex problem-solving. This capability is enabled through three key innovations that makes agentic RL effective at scale: (i) an efficient RL infrastructure with a reliable Python code environment that supports high-throughput execution and mitigates the high rollout costs, enabling training on limited GPU resources (64 MI300X GPUs); (ii) GRPO-RoC, an agentic RL algorithm with a Resample-on-Correct rollout strategy that addresses the inherent environment noises from coding tools, allowing the model to reason more effectively in a code environment; (iii) An efficient agent training recipe that starts with non-reasoning SFT and progresses through multi-RL stages, yielding advanced cognitive abilities with minimal compute cost. To this end, rStar2-Agent boosts a pre-trained 14B model to state of the art in only 510 RL steps within one week, achieving average pass@1 scores of 80.6% on AIME24 and 69.8% on AIME25, surpassing DeepSeek-R1 (671B) with significantly shorter responses. Beyond mathematics, rStar2-Agent-14B also demonstrates strong generalization to alignment, scientific reasoning, and agentic tool-use tasks. Code and training recipes are available at https://github.com/microsoft/rStar.

rStar2-Agente: Rapporto Tecnico sul Ragionamento Agente

rStar2-Agent: Agentic Reasoning Technical Report

Abstract

Support