ChatPaper.aiChatPaper

Versterkend Leren voor Zelfverbeterende Agenten met een Vaardigheidsbibliotheek

Reinforcement Learning for Self-Improving Agent with Skill Library

December 18, 2025
Auteurs: Jiongxiao Wang, Qiaojing Yan, Yawei Wang, Yijun Tian, Soumya Smruti Mishra, Zhichao Xu, Megha Gandhi, Panpan Xu, Lin Lee Cheong
cs.AI

Samenvatting

Op Large Language Model (LLM) gebaseerde agents hebben opmerkelijke capaciteiten getoond op het gebied van complex redeneren en multi-turn interacties, maar hebben moeite met continu verbeteren en aanpassen wanneer ze in nieuwe omgevingen worden ingezet. Een veelbelovende aanpak is de implementatie van vaardigheidsbibliotheken die agents in staat stellen nieuwe vaardigheden te leren, valideren en toepassen. De huidige benaderingen voor vaardigheidsbibliotheken vertrouwen echter voornamelijk op LLM-aansturing, wat een consistente implementatie van de bibliotheek bemoeilijkt. Om deze uitdagingen te overwinnen, stellen we een op Reinforcement Learning (RL) gebaseerde aanpak voor om het zelfverbeteringsvermogen van agents met een vaardigheidsbibliotheek te vergroten. Concreet introduceren we Skill Augmented GRPO for self-Evolution (SAGE), een nieuw RL-framework dat vaardigheden systematisch in het leerproces integreert. De kerncomponent van het framework, Sequential Rollout, zet agents iteratief in over een keten van gelijkaardige taken voor elke rollout. Terwijl agents door de taakketen navigeren, accumuleren vaardigheden die gegenereerd zijn uit eerdere taken in de bibliotheek en worden ze beschikbaar voor volgende taken. Daarnaast verbetert het framework de vaardigheidsgeneratie en -benutting via een Skill-geïntegreerde Beloning die de oorspronkelijke resultaatgebonden beloningen aanvult. Experimentele resultaten op AppWorld tonen aan dat SAGE, wanneer toegepast op een supervised-finetuned model met expertervaring, een 8,9% hogere Scenario Goal Completion bereikt, terwijl het 26% minder interactiestappen vereist en 59% minder tokens genereert. Dit presteert aanzienlijk beter dan bestaande benaderingen in zowel nauwkeurigheid als efficiëntie.
English
Large Language Model (LLM)-based agents have demonstrated remarkable capabilities in complex reasoning and multi-turn interactions but struggle to continuously improve and adapt when deployed in new environments. One promising approach is implementing skill libraries that allow agents to learn, validate, and apply new skills. However, current skill library approaches rely primarily on LLM prompting, making consistent skill library implementation challenging. To overcome these challenges, we propose a Reinforcement Learning (RL)-based approach to enhance agents' self-improvement capabilities with a skill library. Specifically, we introduce Skill Augmented GRPO for self-Evolution (SAGE), a novel RL framework that systematically incorporates skills into learning. The framework's key component, Sequential Rollout, iteratively deploys agents across a chain of similar tasks for each rollout. As agents navigate through the task chain, skills generated from previous tasks accumulate in the library and become available for subsequent tasks. Additionally, the framework enhances skill generation and utilization through a Skill-integrated Reward that complements the original outcome-based rewards. Experimental results on AppWorld demonstrate that SAGE, when applied to supervised-finetuned model with expert experience, achieves 8.9% higher Scenario Goal Completion while requiring 26% fewer interaction steps and generating 59% fewer tokens, substantially outperforming existing approaches in both accuracy and efficiency.
PDF354February 8, 2026