rStar2-Agente: Informe Técnico sobre Razonamiento Agéntico

Resumen

Presentamos rStar2-Agent, un modelo de razonamiento matemático de 14B entrenado con aprendizaje por refuerzo agencial para alcanzar un rendimiento de vanguardia. Más allá de los enfoques actuales de largas cadenas de pensamiento (CoT), el modelo demuestra comportamientos cognitivos avanzados, como pensar detenidamente antes de utilizar herramientas de codificación en Python y reflexionar sobre la retroalimentación de la ejecución del código para explorar, verificar y refinar de manera autónoma los pasos intermedios en la resolución de problemas complejos. Esta capacidad se logra mediante tres innovaciones clave que hacen que el aprendizaje por refuerzo agencial sea efectivo a gran escala: (i) una infraestructura eficiente de aprendizaje por refuerzo con un entorno confiable de código Python que soporta ejecuciones de alto rendimiento y mitiga los altos costos de despliegue, permitiendo el entrenamiento con recursos limitados de GPU (64 GPUs MI300X); (ii) GRPO-RoC, un algoritmo de aprendizaje por refuerzo agencial con una estrategia de despliegue Resample-on-Correct que aborda los ruidos inherentes del entorno provenientes de las herramientas de codificación, permitiendo que el modelo razone de manera más efectiva en un entorno de código; (iii) Una receta eficiente de entrenamiento agencial que comienza con un ajuste fino supervisado (SFT) no razonado y avanza a través de múltiples etapas de aprendizaje por refuerzo, obteniendo habilidades cognitivas avanzadas con un costo computacional mínimo. Como resultado, rStar2-Agent eleva un modelo preentrenado de 14B al estado del arte en solo 510 pasos de aprendizaje por refuerzo en una semana, logrando puntajes promedio de pass@1 del 80.6% en AIME24 y 69.8% en AIME25, superando a DeepSeek-R1 (671B) con respuestas significativamente más cortas. Más allá de las matemáticas, rStar2-Agent-14B también demuestra una fuerte generalización en tareas de alineación, razonamiento científico y uso de herramientas agenciales. El código y las recetas de entrenamiento están disponibles en https://github.com/microsoft/rStar.

English

We introduce rStar2-Agent, a 14B math reasoning model trained with agentic reinforcement learning to achieve frontier-level performance. Beyond current long CoT, the model demonstrates advanced cognitive behaviors, such as thinking carefully before using Python coding tools and reflecting on code execution feedback to autonomously explore, verify, and refine intermediate steps in complex problem-solving. This capability is enabled through three key innovations that makes agentic RL effective at scale: (i) an efficient RL infrastructure with a reliable Python code environment that supports high-throughput execution and mitigates the high rollout costs, enabling training on limited GPU resources (64 MI300X GPUs); (ii) GRPO-RoC, an agentic RL algorithm with a Resample-on-Correct rollout strategy that addresses the inherent environment noises from coding tools, allowing the model to reason more effectively in a code environment; (iii) An efficient agent training recipe that starts with non-reasoning SFT and progresses through multi-RL stages, yielding advanced cognitive abilities with minimal compute cost. To this end, rStar2-Agent boosts a pre-trained 14B model to state of the art in only 510 RL steps within one week, achieving average pass@1 scores of 80.6% on AIME24 and 69.8% on AIME25, surpassing DeepSeek-R1 (671B) with significantly shorter responses. Beyond mathematics, rStar2-Agent-14B also demonstrates strong generalization to alignment, scientific reasoning, and agentic tool-use tasks. Code and training recipes are available at https://github.com/microsoft/rStar.

rStar2-Agente: Informe Técnico sobre Razonamiento Agéntico

rStar2-Agent: Agentic Reasoning Technical Report

Resumen

Support