Apprendimento per Rinforzo per Agenti Auto-Miglioranti con Libreria di Competenze
Reinforcement Learning for Self-Improving Agent with Skill Library
December 18, 2025
Autori: Jiongxiao Wang, Qiaojing Yan, Yawei Wang, Yijun Tian, Soumya Smruti Mishra, Zhichao Xu, Megha Gandhi, Panpan Xu, Lin Lee Cheong
cs.AI
Abstract
Gli agenti basati su Large Language Model (LLM) hanno dimostrato capacità notevoli nel ragionamento complesso e nelle interazioni multi-turno, ma faticano a migliorare e adattarsi continuamente quando vengono implementati in nuovi ambienti. Un approccio promettente è l'implementazione di librerie di abilità che consentono agli agenti di apprendere, validare e applicare nuove competenze. Tuttavia, gli attuali approcci alle librerie di abilità si basano principalmente sul prompting degli LLM, rendendo difficile un'implementazione coerente della libreria di abilità. Per superare queste sfide, proponiamo un approccio basato sul Reinforcement Learning (RL) per potenziare le capacità di auto-miglioramento degli agenti con una libreria di abilità. Nello specifico, introduciamo Skill Augmented GRPO for self-Evolution (SAGE), un nuovo framework RL che incorpora sistematicamente le abilità nell'apprendimento. Il componente chiave del framework, il Sequential Rollout, distribuisce iterativamente gli agenti attraverso una catena di task simili per ogni rollout. Man mano che gli agenti si muovono attraverso la catena di task, le abilità generate dai task precedenti si accumulano nella libreria e diventano disponibili per i task successivi. Inoltre, il framework migliora la generazione e l'utilizzo delle abilità attraverso una Ricompensa Integrata con le Abilità che complementa le ricompense originali basate sul risultato. I risultati sperimentali su AppWorld dimostrano che SAGE, applicato a un modello supervisionato fine-tunato con esperienza esperta, raggiunge un Completion dello Scenario Goal superiore dell'8,9%, richiedendo il 26% in meno di passi di interazione e generando il 59% in meno di token, superando sostanzialmente gli approcci esistenti sia in accuratezza che in efficienza.
English
Large Language Model (LLM)-based agents have demonstrated remarkable capabilities in complex reasoning and multi-turn interactions but struggle to continuously improve and adapt when deployed in new environments. One promising approach is implementing skill libraries that allow agents to learn, validate, and apply new skills. However, current skill library approaches rely primarily on LLM prompting, making consistent skill library implementation challenging. To overcome these challenges, we propose a Reinforcement Learning (RL)-based approach to enhance agents' self-improvement capabilities with a skill library. Specifically, we introduce Skill Augmented GRPO for self-Evolution (SAGE), a novel RL framework that systematically incorporates skills into learning. The framework's key component, Sequential Rollout, iteratively deploys agents across a chain of similar tasks for each rollout. As agents navigate through the task chain, skills generated from previous tasks accumulate in the library and become available for subsequent tasks. Additionally, the framework enhances skill generation and utilization through a Skill-integrated Reward that complements the original outcome-based rewards. Experimental results on AppWorld demonstrate that SAGE, when applied to supervised-finetuned model with expert experience, achieves 8.9% higher Scenario Goal Completion while requiring 26% fewer interaction steps and generating 59% fewer tokens, substantially outperforming existing approaches in both accuracy and efficiency.