rStar2-Agent: Relatório Técnico sobre Raciocínio Agente

Resumo

Apresentamos o rStar2-Agent, um modelo de raciocínio matemático de 14B treinado com aprendizado por reforço agentivo para alcançar desempenho de ponta. Além das atuais abordagens de Chain-of-Thought (CoT) longas, o modelo demonstra comportamentos cognitivos avançados, como pensar cuidadosamente antes de usar ferramentas de codificação em Python e refletir sobre o feedback da execução de código para explorar, verificar e refinar autonomamente etapas intermediárias na resolução de problemas complexos. Essa capacidade é habilitada por três inovações-chave que tornam o RL agentivo eficaz em escala: (i) uma infraestrutura de RL eficiente com um ambiente confiável de código Python que suporta execução de alta taxa de transferência e mitiga os altos custos de rollout, permitindo o treinamento com recursos limitados de GPU (64 GPUs MI300X); (ii) GRPO-RoC, um algoritmo de RL agentivo com uma estratégia de rollout Resample-on-Correct que aborda os ruídos inerentes do ambiente provenientes de ferramentas de codificação, permitindo que o modelo raciocine de forma mais eficaz em um ambiente de código; (iii) Uma receita eficiente de treinamento de agentes que começa com SFT (Supervised Fine-Tuning) não orientado ao raciocínio e progride por múltiplos estágios de RL, resultando em habilidades cognitivas avançadas com custo computacional mínimo. Com isso, o rStar2-Agent eleva um modelo pré-treinado de 14B ao estado da arte em apenas 510 passos de RL em uma semana, alcançando pontuações médias pass@1 de 80,6% no AIME24 e 69,8% no AIME25, superando o DeepSeek-R1 (671B) com respostas significativamente mais curtas. Além da matemática, o rStar2-Agent-14B também demonstra forte generalização para tarefas de alinhamento, raciocínio científico e uso agentivo de ferramentas. O código e as receitas de treinamento estão disponíveis em https://github.com/microsoft/rStar.

English

We introduce rStar2-Agent, a 14B math reasoning model trained with agentic reinforcement learning to achieve frontier-level performance. Beyond current long CoT, the model demonstrates advanced cognitive behaviors, such as thinking carefully before using Python coding tools and reflecting on code execution feedback to autonomously explore, verify, and refine intermediate steps in complex problem-solving. This capability is enabled through three key innovations that makes agentic RL effective at scale: (i) an efficient RL infrastructure with a reliable Python code environment that supports high-throughput execution and mitigates the high rollout costs, enabling training on limited GPU resources (64 MI300X GPUs); (ii) GRPO-RoC, an agentic RL algorithm with a Resample-on-Correct rollout strategy that addresses the inherent environment noises from coding tools, allowing the model to reason more effectively in a code environment; (iii) An efficient agent training recipe that starts with non-reasoning SFT and progresses through multi-RL stages, yielding advanced cognitive abilities with minimal compute cost. To this end, rStar2-Agent boosts a pre-trained 14B model to state of the art in only 510 RL steps within one week, achieving average pass@1 scores of 80.6% on AIME24 and 69.8% on AIME25, surpassing DeepSeek-R1 (671B) with significantly shorter responses. Beyond mathematics, rStar2-Agent-14B also demonstrates strong generalization to alignment, scientific reasoning, and agentic tool-use tasks. Code and training recipes are available at https://github.com/microsoft/rStar.

rStar2-Agent: Relatório Técnico sobre Raciocínio Agente

rStar2-Agent: Agentic Reasoning Technical Report

Resumo

Support