ARISE : Raisonnement des Agents par Évolution Intrinsèque des Compétences en Apprentissage par Renforcement Hiérarchique

Résumé

Le paradigme dominant pour améliorer le raisonnement mathématique dans les modèles de langage repose sur l'apprentissage par renforcement avec des récompenses vérifiables. Cependant, les méthodes existantes traitent chaque instance de problème de manière isolée sans exploiter les stratégies réutilisables qui émergent et s'accumulent pendant l'entraînement. Pour cela, nous présentons ARISE (Agent Reasoning via Intrinsic Skill Evolution), un cadre d'apprentissage par renforcement hiérarchique dans lequel une politique partagée opère à la fois pour gérer les compétences de haut niveau et pour générer des réponses de bas niveau (désignées respectivement comme Gestionnaire de Compétences et Travailleur). Le Gestionnaire maintient une bibliothèque de compétences à plusieurs niveaux via un déploiement dédié de génération de compétences qui effectue une synthèse structurée des traces de solutions réussies (après exécution), tout en employant un mécanisme de sélection piloté par une politique pour récupérer les compétences pertinentes afin de conditionner les futurs déploiements (avant exécution). Une conception hiérarchique des récompenses guide la co-évolution de la capacité de raisonnement et de la qualité de la bibliothèque. Les expériences sur deux modèles de base et sept benchmarks couvrant à la fois les mathématiques de compétition et Omni-MATH montrent qu'ARISE surpasse constamment les algorithmes de la famille GRPO et les bases de référence à mémoire augmentée, avec des gains particulièrement notables sur les tâches hors distribution. Les études d'ablation confirment que chaque composant contribue aux améliorations observées et que la qualité de la bibliothèque et les performances de raisonnement s'améliorent de concert tout au long de l'entraînement. Le code est disponible à l'adresse https://github.com/Skylanding/ARISE.

English

The dominant paradigm for improving mathematical reasoning in language models relies on Reinforcement Learning with verifiable rewards. Yet existing methods treat each problem instance in isolation without leveraging the reusable strategies that emerge and accumulate during training. To this end, we introduce ARISE (Agent Reasoning via Intrinsic Skill Evolution), a hierarchical reinforcement learning framework, in which a shared policy operates both to manage skills at high-level and to generate responses at low-level (denoted as a Skills Manager and a Worker, respectively). The Manager maintains a tiered skill library through a dedicated skill generation rollout that performs structured summarization of successful solution traces (after execution), while employing a policy-driven selection mechanism to retrieve relevant skills to condition future rollouts (before execution). A hierarchical reward design guides the co-evolution of reasoning ability and library quality. Experiments on two base models and seven benchmarks spanning both competition mathematics and Omni-MATH show that ARISE consistently outperforms GRPO-family algorithms and memory-augmented baselines, with particularly notable gains on out-of-distribution tasks. Ablation studies confirm that each component contributes to the observed improvements and that library quality and reasoning performance improve in tandem throughout training. Code is available at https://github.com/Skylanding/ARISE{https://github.com/Skylanding/ARISE}.

ARISE : Raisonnement des Agents par Évolution Intrinsèque des Compétences en Apprentissage par Renforcement Hiérarchique

ARISE: Agent Reasoning with Intrinsic Skill Evolution in Hierarchical Reinforcement Learning

Résumé

Support