ChatPaper.aiChatPaper

SkillRL: Evolution von Agenten durch rekursive fähigkeitsgestützte Verstärkungslernen

SkillRL: Evolving Agents via Recursive Skill-Augmented Reinforcement Learning

February 9, 2026
papers.authors: Peng Xia, Jianwen Chen, Hanyang Wang, Jiaqi Liu, Kaide Zeng, Yu Wang, Siwei Han, Yiyang Zhou, Xujiang Zhao, Haifeng Chen, Zeyu Zheng, Cihang Xie, Huaxiu Yao
cs.AI

papers.abstract

Große Sprachmodell-Agenten (LLM) haben beeindruckende Ergebnisse bei komplexen Aufgaben gezeigt, agieren jedoch oft isoliert und lernen nicht aus vergangenen Erfahrungen. Bestehende speicherbasierte Methoden speichern primär Roh-Trajektorien, die häufig redundant und rauschbehaftet sind. Dies verhindert, dass Agenten hochrangige, wiederverwendbare Verhaltensmuster extrahieren, die für Generalisierung entscheidend sind. In diesem Artikel schlagen wir SkillRL vor, ein Framework, das die Lücke zwischen Roh-Erfahrung und Politikverbesserung durch automatische Skill-Entdeckung und rekursive Evolution überbrückt. Unser Ansatz führt einen erfahrungsbasierten Destillationsmechanismus ein, um eine hierarchische Skill-Bibliothek (SkillBank) aufzubauen, eine adaptive Abrufstrategie für allgemeine und aufgabenspezifische Heuristiken sowie einen rekursiven Evolutionsmechanismus, der die Skill-Bibliothek ermöglicht, sich während des bestärkenden Lernens gemeinsam mit der Politik des Agenten weiterzuentwickeln. Diese Innovationen reduzieren den Token-Fußabdruck signifikant und verbessern gleichzeitig den Reasoning-Nutzen. Experimentelle Ergebnisse auf ALFWorld, WebShop und sieben suchverstärkten Aufgaben zeigen, dass SkillRL state-of-the-art Leistung erreicht, starke Baseline-Modelle um über 15,3% übertrifft und Robustheit bei steigender Aufgabenkomplexität beibehält. Code ist verfügbar unter https://github.com/aiming-lab/SkillRL.
English
Large Language Model (LLM) agents have shown stunning results in complex tasks, yet they often operate in isolation, failing to learn from past experiences. Existing memory-based methods primarily store raw trajectories, which are often redundant and noise-heavy. This prevents agents from extracting high-level, reusable behavioral patterns that are essential for generalization. In this paper, we propose SkillRL, a framework that bridges the gap between raw experience and policy improvement through automatic skill discovery and recursive evolution. Our approach introduces an experience-based distillation mechanism to build a hierarchical skill library SkillBank, an adaptive retrieval strategy for general and task-specific heuristics, and a recursive evolution mechanism that allows the skill library to co-evolve with the agent's policy during reinforcement learning. These innovations significantly reduce the token footprint while enhancing reasoning utility. Experimental results on ALFWorld, WebShop and seven search-augmented tasks demonstrate that SkillRL achieves state-of-the-art performance, outperforming strong baselines over 15.3% and maintaining robustness as task complexity increases. Code is available at this https://github.com/aiming-lab/SkillRL.
PDF561February 12, 2026