ARISE: Razonamiento de Agentes con Evolución Intrínseca de Habilidades en Aprendizaje por Refuerzo Jerárquico

Resumen

El paradigma dominante para mejorar el razonamiento matemático en modelos de lenguaje se basa en el Aprendizaje por Refuerzo con recompensas verificables. Sin embargo, los métodos existentes tratan cada instancia del problema de forma aislada, sin aprovechar las estrategias reutilizables que emergen y se acumulan durante el entrenamiento. Para ello, presentamos ARISE (Razonamiento del Agente mediante la Evolución Intrínseca de Habilidades), un marco de aprendizaje por refuerzo jerárquico en el que una política compartida opera tanto para gestionar habilidades a alto nivel como para generar respuestas a bajo nivel (denominados Gestor de Habilidades y Trabajador, respectivamente). El Gestor mantiene una biblioteca de habilidades escalonada mediante un proceso de generación dedicado que realiza una resumen estructurado de las trazas de solución exitosas (después de la ejecución), mientras emplea un mecanismo de selección guiado por políticas para recuperar habilidades relevantes y condicionar futuras ejecuciones (antes de la ejecución). Un diseño de recompensa jerárquico guía la co-evolución de la capacidad de razonamiento y la calidad de la biblioteca. Los experimentos con dos modelos base y siete benchmarks que abarcan tanto matemáticas de competición como Omni-MATH muestran que ARISE supera consistentemente a los algoritmos de la familia GRPO y a los baselines aumentados con memoria, con ganancias particularmente notables en tareas fuera de distribución. Los estudios de ablación confirman que cada componente contribuye a las mejoras observadas y que la calidad de la biblioteca y el rendimiento del razonamiento mejoran conjuntamente durante el entrenamiento. El código está disponible en https://github.com/Skylanding/ARISE.

English

The dominant paradigm for improving mathematical reasoning in language models relies on Reinforcement Learning with verifiable rewards. Yet existing methods treat each problem instance in isolation without leveraging the reusable strategies that emerge and accumulate during training. To this end, we introduce ARISE (Agent Reasoning via Intrinsic Skill Evolution), a hierarchical reinforcement learning framework, in which a shared policy operates both to manage skills at high-level and to generate responses at low-level (denoted as a Skills Manager and a Worker, respectively). The Manager maintains a tiered skill library through a dedicated skill generation rollout that performs structured summarization of successful solution traces (after execution), while employing a policy-driven selection mechanism to retrieve relevant skills to condition future rollouts (before execution). A hierarchical reward design guides the co-evolution of reasoning ability and library quality. Experiments on two base models and seven benchmarks spanning both competition mathematics and Omni-MATH show that ARISE consistently outperforms GRPO-family algorithms and memory-augmented baselines, with particularly notable gains on out-of-distribution tasks. Ablation studies confirm that each component contributes to the observed improvements and that library quality and reasoning performance improve in tandem throughout training. Code is available at https://github.com/Skylanding/ARISE{https://github.com/Skylanding/ARISE}.

ARISE: Razonamiento de Agentes con Evolución Intrínseca de Habilidades en Aprendizaje por Refuerzo Jerárquico

ARISE: Agent Reasoning with Intrinsic Skill Evolution in Hierarchical Reinforcement Learning

Resumen

Support