SkillRL : Évolution d'agents par apprentissage par renforcement récursif avec compétences
SkillRL: Evolving Agents via Recursive Skill-Augmented Reinforcement Learning
February 9, 2026
papers.authors: Peng Xia, Jianwen Chen, Hanyang Wang, Jiaqi Liu, Kaide Zeng, Yu Wang, Siwei Han, Yiyang Zhou, Xujiang Zhao, Haifeng Chen, Zeyu Zheng, Cihang Xie, Huaxiu Yao
cs.AI
papers.abstract
Les agents de modèles de langage de grande taille (LLM) ont démontré des résultats remarquables dans des tâches complexes, mais ils opèrent souvent de manière isolée, sans tirer parti des expériences passées. Les méthodes existantes basées sur la mémoire stockent principalement des trajectoires brutes, souvent redondantes et bruitées. Cela empêche les agents d'extraire des schémas comportementaux réutilisables et de haut niveau, essentiels pour la généralisation. Dans cet article, nous proposons SkillRL, un cadre qui comble le fossé entre l'expérience brute et l'amélioration des politiques grâce à la découverte automatique de compétences et à une évolution récursive. Notre approche introduit un mécanisme de distillation basé sur l'expérience pour construire une bibliothèque hiérarchique de compétences (SkillBank), une stratégie de récupération adaptative pour les heuristiques générales et spécifiques aux tâches, et un mécanisme d'évolution récursive permettant à la bibliothèque de compétences de co-évoluer avec la politique de l'agent durant l'apprentissage par renforcement. Ces innovations réduisent significativement l'empreinte tokenique tout en améliorant l'utilité du raisonnement. Les résultats expérimentaux sur ALFWorld, WebShop et sept tâches augmentées par recherche démontrent que SkillRL atteint des performances à l'état de l'art, surpassant des bases de référence solides de plus de 15,3 % et maintenant sa robustesse à mesure que la complexité des tâches augmente. Le code est disponible à l'adresse https://github.com/aiming-lab/SkillRL.
English
Large Language Model (LLM) agents have shown stunning results in complex tasks, yet they often operate in isolation, failing to learn from past experiences. Existing memory-based methods primarily store raw trajectories, which are often redundant and noise-heavy. This prevents agents from extracting high-level, reusable behavioral patterns that are essential for generalization. In this paper, we propose SkillRL, a framework that bridges the gap between raw experience and policy improvement through automatic skill discovery and recursive evolution. Our approach introduces an experience-based distillation mechanism to build a hierarchical skill library SkillBank, an adaptive retrieval strategy for general and task-specific heuristics, and a recursive evolution mechanism that allows the skill library to co-evolve with the agent's policy during reinforcement learning. These innovations significantly reduce the token footprint while enhancing reasoning utility. Experimental results on ALFWorld, WebShop and seven search-augmented tasks demonstrate that SkillRL achieves state-of-the-art performance, outperforming strong baselines over 15.3% and maintaining robustness as task complexity increases. Code is available at this https://github.com/aiming-lab/SkillRL.