rStar2-Agente: Informe Técnico sobre Razonamiento Agéntico
rStar2-Agent: Agentic Reasoning Technical Report
August 28, 2025
Autores: Ning Shang, Yifei Liu, Yi Zhu, Li Lyna Zhang, Weijiang Xu, Xinyu Guan, Buze Zhang, Bingcheng Dong, Xudong Zhou, Bowen Zhang, Ying Xin, Ziming Miao, Scarlett Li, Fan Yang, Mao Yang
cs.AI
Resumen
Presentamos rStar2-Agent, un modelo de razonamiento matemático de 14B entrenado con aprendizaje por refuerzo agencial para alcanzar un rendimiento de vanguardia. Más allá de los enfoques actuales de largas cadenas de pensamiento (CoT), el modelo demuestra comportamientos cognitivos avanzados, como pensar detenidamente antes de utilizar herramientas de codificación en Python y reflexionar sobre la retroalimentación de la ejecución del código para explorar, verificar y refinar de manera autónoma los pasos intermedios en la resolución de problemas complejos. Esta capacidad se logra mediante tres innovaciones clave que hacen que el aprendizaje por refuerzo agencial sea efectivo a gran escala: (i) una infraestructura eficiente de aprendizaje por refuerzo con un entorno confiable de código Python que soporta ejecuciones de alto rendimiento y mitiga los altos costos de despliegue, permitiendo el entrenamiento con recursos limitados de GPU (64 GPUs MI300X); (ii) GRPO-RoC, un algoritmo de aprendizaje por refuerzo agencial con una estrategia de despliegue Resample-on-Correct que aborda los ruidos inherentes del entorno provenientes de las herramientas de codificación, permitiendo que el modelo razone de manera más efectiva en un entorno de código; (iii) Una receta eficiente de entrenamiento agencial que comienza con un ajuste fino supervisado (SFT) no razonado y avanza a través de múltiples etapas de aprendizaje por refuerzo, obteniendo habilidades cognitivas avanzadas con un costo computacional mínimo. Como resultado, rStar2-Agent eleva un modelo preentrenado de 14B al estado del arte en solo 510 pasos de aprendizaje por refuerzo en una semana, logrando puntajes promedio de pass@1 del 80.6% en AIME24 y 69.8% en AIME25, superando a DeepSeek-R1 (671B) con respuestas significativamente más cortas. Más allá de las matemáticas, rStar2-Agent-14B también demuestra una fuerte generalización en tareas de alineación, razonamiento científico y uso de herramientas agenciales. El código y las recetas de entrenamiento están disponibles en https://github.com/microsoft/rStar.
English
We introduce rStar2-Agent, a 14B math reasoning model trained with agentic
reinforcement learning to achieve frontier-level performance. Beyond current
long CoT, the model demonstrates advanced cognitive behaviors, such as thinking
carefully before using Python coding tools and reflecting on code execution
feedback to autonomously explore, verify, and refine intermediate steps in
complex problem-solving. This capability is enabled through three key
innovations that makes agentic RL effective at scale: (i) an efficient RL
infrastructure with a reliable Python code environment that supports
high-throughput execution and mitigates the high rollout costs, enabling
training on limited GPU resources (64 MI300X GPUs); (ii) GRPO-RoC, an agentic
RL algorithm with a Resample-on-Correct rollout strategy that addresses the
inherent environment noises from coding tools, allowing the model to reason
more effectively in a code environment; (iii) An efficient agent training
recipe that starts with non-reasoning SFT and progresses through multi-RL
stages, yielding advanced cognitive abilities with minimal compute cost. To
this end, rStar2-Agent boosts a pre-trained 14B model to state of the art in
only 510 RL steps within one week, achieving average pass@1 scores of 80.6% on
AIME24 and 69.8% on AIME25, surpassing DeepSeek-R1 (671B) with significantly
shorter responses. Beyond mathematics, rStar2-Agent-14B also demonstrates
strong generalization to alignment, scientific reasoning, and agentic tool-use
tasks. Code and training recipes are available at
https://github.com/microsoft/rStar.