ARISE: Raciocínio do Agente com Evolução Intrínseca de Habilidades em Aprendizagem por Reforço Hierárquica

Resumo

O paradigma dominante para melhorar o raciocínio matemático em modelos de linguagem baseia-se no Aprendizado por Reforço com recompensas verificáveis. No entanto, os métodos existentes tratam cada instância do problema de forma isolada, sem aproveitar as estratégias reutilizáveis que emergem e se acumulam durante o treinamento. Para isso, introduzimos o ARISE (Raciocínio do Agente via Evolução de Habilidades Intrínsecas), um framework hierárquico de aprendizado por reforço, no qual uma política compartilhada atua tanto para gerenciar habilidades em alto nível quanto para gerar respostas em baixo nível (denominadas Gestor de Habilidades e Trabalhador, respectivamente). O Gestor mantém uma biblioteca de habilidades hierárquica por meio de um *rollout* dedicado à geração de habilidades que realiza uma sumarização estruturada de traços de solução bem-sucedidos (após a execução), enquanto emprega um mecanismo de seleção guiado por política para recuperar habilidades relevantes e condicionar *rollouts* futuros (antes da execução). Um projeto de recompensa hierárquico guia a coevolução da capacidade de raciocínio e da qualidade da biblioteca. Experimentos em dois modelos base e sete benchmarks abrangendo matemática competitiva e Omni-MATH mostram que o ARISE supera consistentemente algoritmos da família GRPO e baselines com aumento de memória, com ganhos particularmente notáveis em tarefas fora da distribuição. Estudos de ablação confirmam que cada componente contribui para as melhorias observadas e que a qualidade da biblioteca e o desempenho do raciocínio melhoram em conjunto durante todo o treinamento. O código está disponível em https://github.com/Skylanding/ARISE.

English

The dominant paradigm for improving mathematical reasoning in language models relies on Reinforcement Learning with verifiable rewards. Yet existing methods treat each problem instance in isolation without leveraging the reusable strategies that emerge and accumulate during training. To this end, we introduce ARISE (Agent Reasoning via Intrinsic Skill Evolution), a hierarchical reinforcement learning framework, in which a shared policy operates both to manage skills at high-level and to generate responses at low-level (denoted as a Skills Manager and a Worker, respectively). The Manager maintains a tiered skill library through a dedicated skill generation rollout that performs structured summarization of successful solution traces (after execution), while employing a policy-driven selection mechanism to retrieve relevant skills to condition future rollouts (before execution). A hierarchical reward design guides the co-evolution of reasoning ability and library quality. Experiments on two base models and seven benchmarks spanning both competition mathematics and Omni-MATH show that ARISE consistently outperforms GRPO-family algorithms and memory-augmented baselines, with particularly notable gains on out-of-distribution tasks. Ablation studies confirm that each component contributes to the observed improvements and that library quality and reasoning performance improve in tandem throughout training. Code is available at https://github.com/Skylanding/ARISE{https://github.com/Skylanding/ARISE}.

ARISE: Raciocínio do Agente com Evolução Intrínseca de Habilidades em Aprendizagem por Reforço Hierárquica

ARISE: Agent Reasoning with Intrinsic Skill Evolution in Hierarchical Reinforcement Learning

Resumo

Support