SkillRL: De evolutie van agenten via recursieve bekwaamheidsversterkte reinforcement learning

Samenvatting

Grote Taalmodellen (LLM) als agents leveren indrukwekkende resultaten bij complexe taken, maar opereren vaak geïsoleerd en leren niet van eerdere ervaringen. Bestaande methoden op basis van geheugen slaan voornamelijk ruwe trajecten op, die vaak redundant zijn en veel ruis bevatten. Hierdoor kunnen agents geen hoogwaardige, herbruikbare gedragspatronen extraheren die essentieel zijn voor generalisatie. In dit artikel stellen we SkillRL voor, een raamwerk dat de kloof tussen ruwe ervaring en beleidsverbetering overbrugt door automatische vaardigheidsontdekking en recursieve evolutie. Onze aanpak introduceert een op ervaring gebaseerd distillatiemechanisme om een hiërarchische vaardighedenbibliotheek (SkillBank) op te bouwen, een adaptieve retrievestrategie voor algemene en taakspecifieke heuristieken, en een recursief evolutiemechanisme waarmee de vaardighedenbibliotheek kan co-evolueren met het beleid van de agent tijdens reinforcement learning. Deze innovaties verminderen de token-footprint aanzienlijk en verbeteren tegelijkertijd de redeneernuttigheid. Experimentele resultaten op ALFWorld, WebShop en zeven taken met zoekversterking tonen aan dat SkillRL state-of-the-art prestaties bereikt, sterke baseline-methoden met meer dan 15,3% overtreft en robuustheid behoudt naarmate de taakcomplexiteit toeneemt. Code is beschikbaar op https://github.com/aiming-lab/SkillRL.

English

Large Language Model (LLM) agents have shown stunning results in complex tasks, yet they often operate in isolation, failing to learn from past experiences. Existing memory-based methods primarily store raw trajectories, which are often redundant and noise-heavy. This prevents agents from extracting high-level, reusable behavioral patterns that are essential for generalization. In this paper, we propose SkillRL, a framework that bridges the gap between raw experience and policy improvement through automatic skill discovery and recursive evolution. Our approach introduces an experience-based distillation mechanism to build a hierarchical skill library SkillBank, an adaptive retrieval strategy for general and task-specific heuristics, and a recursive evolution mechanism that allows the skill library to co-evolve with the agent's policy during reinforcement learning. These innovations significantly reduce the token footprint while enhancing reasoning utility. Experimental results on ALFWorld, WebShop and seven search-augmented tasks demonstrate that SkillRL achieves state-of-the-art performance, outperforming strong baselines over 15.3% and maintaining robustness as task complexity increases. Code is available at this https://github.com/aiming-lab/SkillRL.

SkillRL: De evolutie van agenten via recursieve bekwaamheidsversterkte reinforcement learning

SkillRL: Evolving Agents via Recursive Skill-Augmented Reinforcement Learning

Samenvatting

Support