Apprentissage par Renforcement pour un Agent Auto-Améliorant avec une Bibliothèque de Compétences
Reinforcement Learning for Self-Improving Agent with Skill Library
December 18, 2025
papers.authors: Jiongxiao Wang, Qiaojing Yan, Yawei Wang, Yijun Tian, Soumya Smruti Mishra, Zhichao Xu, Megha Gandhi, Panpan Xu, Lin Lee Cheong
cs.AI
papers.abstract
Les agents basés sur des modèles de langage de grande taille (LLM) ont démontré des capacités remarquables en matière de raisonnement complexe et d'interactions multi-tours, mais ils peinent à s'améliorer et à s'adapter de manière continue lorsqu'ils sont déployés dans de nouveaux environnements. Une approche prometteuse consiste à mettre en œuvre des bibliothèques de compétences qui permettent aux agents d'apprendre, de valider et d'appliquer de nouvelles compétences. Cependant, les approches actuelles de bibliothèques de compétences reposent principalement sur l'incitation des LLM, ce qui rend difficile la mise en œuvre cohérente de ces bibliothèques. Pour surmonter ces défis, nous proposons une approche basée sur l'apprentissage par renforcement (RL) pour améliorer les capacités d'auto-amélioration des agents avec une bibliothèque de compétences. Plus précisément, nous présentons SAGE (Skill Augmented GRPO for self-Evolution), un nouveau cadre RL qui intègre systématiquement les compétences dans l'apprentissage. Le composant clé de ce cadre, le « Sequential Rollout », déploie itérativement des agents à travers une chaîne de tâches similaires pour chaque déploiement. Lorsque les agents naviguent dans la chaîne de tâches, les compétences générées lors des tâches précédentes s'accumulent dans la bibliothèque et deviennent disponibles pour les tâches suivantes. De plus, le cadre améliore la génération et l'utilisation des compétences grâce à une Récompense Intégrée aux Compétences qui complète les récompenses initiales basées sur les résultats. Les résultats expérimentaux sur AppWorld démontrent que SAGE, appliqué à un modèle supervisé fine-tuné avec une expérience experte, atteint un taux d'Achèvement des Objectifs du Scénario supérieur de 8,9 % tout en nécessitant 26 % d'étapes d'interaction en moins et en générant 59 % de tokens en moins, surpassant ainsi substantiellement les approches existantes en termes de précision et d'efficacité.
English
Large Language Model (LLM)-based agents have demonstrated remarkable capabilities in complex reasoning and multi-turn interactions but struggle to continuously improve and adapt when deployed in new environments. One promising approach is implementing skill libraries that allow agents to learn, validate, and apply new skills. However, current skill library approaches rely primarily on LLM prompting, making consistent skill library implementation challenging. To overcome these challenges, we propose a Reinforcement Learning (RL)-based approach to enhance agents' self-improvement capabilities with a skill library. Specifically, we introduce Skill Augmented GRPO for self-Evolution (SAGE), a novel RL framework that systematically incorporates skills into learning. The framework's key component, Sequential Rollout, iteratively deploys agents across a chain of similar tasks for each rollout. As agents navigate through the task chain, skills generated from previous tasks accumulate in the library and become available for subsequent tasks. Additionally, the framework enhances skill generation and utilization through a Skill-integrated Reward that complements the original outcome-based rewards. Experimental results on AppWorld demonstrate that SAGE, when applied to supervised-finetuned model with expert experience, achieves 8.9% higher Scenario Goal Completion while requiring 26% fewer interaction steps and generating 59% fewer tokens, substantially outperforming existing approaches in both accuracy and efficiency.