ChatPaper.aiChatPaper

Reinforcement Learning für selbstverbessernde Agenten mit Skill-Bibliothek

Reinforcement Learning for Self-Improving Agent with Skill Library

December 18, 2025
papers.authors: Jiongxiao Wang, Qiaojing Yan, Yawei Wang, Yijun Tian, Soumya Smruti Mishra, Zhichao Xu, Megha Gandhi, Panpan Xu, Lin Lee Cheong
cs.AI

papers.abstract

Auf Large Language Models (LLMs) basierende Agenten haben bemerkenswerte Fähigkeiten im komplexen logischen Denken und in mehrstufigen Interaktionen gezeigt, haben jedoch Schwierigkeiten, sich kontinuierlich zu verbessern und anzupassen, wenn sie in neuen Umgebungen eingesetzt werden. Ein vielversprechender Ansatz ist die Implementierung von Skill-Bibliotheken, die es Agenten ermöglichen, neue Fähigkeiten zu erlernen, zu validieren und anzuwenden. Allerdings stützen sich aktuelle Skill-Bibliotheks-Ansätze hauptsächlich auf LLM-Prompting, was eine konsistente Implementierung der Skill-Bibliothek erschwert. Um diese Herausforderungen zu überwinden, schlagen wir einen Reinforcement Learning (RL)-basierten Ansatz vor, um die Selbstverbesserungsfähigkeiten von Agenten mit einer Skill-Bibliothek zu erweitern. Konkret führen wir Skill Augmented GRPO for self-Evolution (SAGE) ein, ein neuartiges RL-Framework, das Fähigkeiten systematisch in das Lernen integriert. Die Schlüsselkomponente des Frameworks, Sequential Rollout, setzt Agenten iterativ über eine Kette ähnlicher Aufgaben für jeden Rollout ein. Während sich die Agenten durch die Aufgabenkette bewegen, sammeln sich in vorherigen Aufgaben generierte Fähigkeiten in der Bibliothek an und stehen für nachfolgende Aufgaben zur Verfügung. Zusätzlich verbessert das Framework die Skill-Generierung und -Nutzung durch eine Skill-integrierte Belohnung, die die ursprünglichen ergebnisbasierten Belohnungen ergänzt. Experimentelle Ergebnisse auf AppWorld zeigen, dass SAGE, angewendet auf ein supervidiert feingetuntes Modell mit Expertenwissen, eine um 8,9 % höhere Szenario-Zielerreichung erreicht, dabei aber 26 % weniger Interaktionsschritte benötigt und 59 % weniger Tokens erzeugt. Dies übertrifft bestehende Ansätze sowohl in der Genauigkeit als auch in der Effizienz erheblich.
English
Large Language Model (LLM)-based agents have demonstrated remarkable capabilities in complex reasoning and multi-turn interactions but struggle to continuously improve and adapt when deployed in new environments. One promising approach is implementing skill libraries that allow agents to learn, validate, and apply new skills. However, current skill library approaches rely primarily on LLM prompting, making consistent skill library implementation challenging. To overcome these challenges, we propose a Reinforcement Learning (RL)-based approach to enhance agents' self-improvement capabilities with a skill library. Specifically, we introduce Skill Augmented GRPO for self-Evolution (SAGE), a novel RL framework that systematically incorporates skills into learning. The framework's key component, Sequential Rollout, iteratively deploys agents across a chain of similar tasks for each rollout. As agents navigate through the task chain, skills generated from previous tasks accumulate in the library and become available for subsequent tasks. Additionally, the framework enhances skill generation and utilization through a Skill-integrated Reward that complements the original outcome-based rewards. Experimental results on AppWorld demonstrate that SAGE, when applied to supervised-finetuned model with expert experience, achieves 8.9% higher Scenario Goal Completion while requiring 26% fewer interaction steps and generating 59% fewer tokens, substantially outperforming existing approaches in both accuracy and efficiency.
PDF121December 25, 2025