ARISE: Ragionamento Agente con Evoluzione Intrinseca delle Abilità nell'Apprendimento per Rinforzo Gerarchico

Abstract

Il paradigma dominante per migliorare il ragionamento matematico nei modelli linguistici si basa sul Reinforcement Learning con ricompense verificabili. Tuttavia, i metodi esistenti trattano ogni istanza del problema in isolamento, senza sfruttare le strategie riutilizzabili che emergono e si accumulano durante l'addestramento. A tal fine, introduciamo ARISE (Agent Reasoning via Intrinsic Skill Evolution), un framework di reinforcement learning gerarchico in cui una politica condivisa opera sia per gestire le abilità a livello alto sia per generare risposte a livello basso (denominati rispettivamente Gestore delle Abilità e Lavoratore). Il Gestore mantiene una libreria di abilità suddivisa in livelli attraverso un rollout dedicato alla generazione di abilità che esegue una summarizzazione strutturata delle tracce di soluzione di successo (dopo l'esecuzione), impiegando contemporaneamente un meccanismo di selezione guidato da policy per recuperare le abilità rilevanti al fine di condizionare i rollout futuri (prima dell'esecuzione). Un design gerarchico delle ricompense guida la co-evoluzione della capacità di ragionamento e della qualità della libreria. Esperimenti su due modelli base e sette benchmark che comprendono sia matematica competitiva che Omni-MATH mostrano che ARISE supera costantemente gli algoritmi della famiglia GRPO e i baseline potenziati con memoria, con guadagni particolarmente significativi su compiti fuori distribuzione. Studi di ablazione confermano che ogni componente contribuisce ai miglioramenti osservati e che la qualità della libreria e le prestazioni di ragionamento migliorano in tandem durante l'addestramento. Il codice è disponibile all'indirizzo https://github.com/Skylanding/ARISE.

English

The dominant paradigm for improving mathematical reasoning in language models relies on Reinforcement Learning with verifiable rewards. Yet existing methods treat each problem instance in isolation without leveraging the reusable strategies that emerge and accumulate during training. To this end, we introduce ARISE (Agent Reasoning via Intrinsic Skill Evolution), a hierarchical reinforcement learning framework, in which a shared policy operates both to manage skills at high-level and to generate responses at low-level (denoted as a Skills Manager and a Worker, respectively). The Manager maintains a tiered skill library through a dedicated skill generation rollout that performs structured summarization of successful solution traces (after execution), while employing a policy-driven selection mechanism to retrieve relevant skills to condition future rollouts (before execution). A hierarchical reward design guides the co-evolution of reasoning ability and library quality. Experiments on two base models and seven benchmarks spanning both competition mathematics and Omni-MATH show that ARISE consistently outperforms GRPO-family algorithms and memory-augmented baselines, with particularly notable gains on out-of-distribution tasks. Ablation studies confirm that each component contributes to the observed improvements and that library quality and reasoning performance improve in tandem throughout training. Code is available at https://github.com/Skylanding/ARISE{https://github.com/Skylanding/ARISE}.

ARISE: Ragionamento Agente con Evoluzione Intrinseca delle Abilità nell'Apprendimento per Rinforzo Gerarchico

ARISE: Agent Reasoning with Intrinsic Skill Evolution in Hierarchical Reinforcement Learning

Abstract

Support