SkillRL: Evoluzione di Agenti tramite Apprendimento per Rinforzo Ricorsivo con Abilità Aumentate

Abstract

Gli agenti basati su Large Language Model (LLM) hanno mostrato risultati sorprendenti in compiti complessi, eppure operano spesso in isolamento, non riuscendo ad apprendere dalle esperienze passate. I metodi esistenti basati sulla memoria memorizzano principalmente traiettorie grezze, che sono spesso ridondanti e ricche di rumore. Ciò impedisce agli agenti di estrarre modelli comportamentali di alto livello e riutilizzabili, essenziali per la generalizzazione. In questo articolo, proponiamo SkillRL, un framework che colma il divario tra esperienza grezza e miglioramento della policy attraverso la scoperta automatica di skill e un'evoluzione ricorsiva. Il nostro approccio introduce un meccanismo di distillazione basato sull'esperienza per costruire una libreria gerarchica di skill (SkillBank), una strategia di recupero adattiva per euristiche generali e specifiche del compito, e un meccanismo di evoluzione ricorsiva che consente alla libreria di skill di co-evolvere con la policy dell'agente durante l'apprendimento per rinforzo. Queste innovazioni riducono significativamente l'impronta dei token migliorando allo stesso tempo l'utilità del ragionamento. I risultati sperimentali su ALFWorld, WebShop e sette compiti con ricerca aumentata dimostrano che SkillRL raggiunge prestazioni all'avanguardia, superando baseline robuste di oltre il 15,3% e mantenendo robustezza all'aumentare della complessità del compito. Il codice è disponibile al seguente indirizzo: https://github.com/aiming-lab/SkillRL.

English

Large Language Model (LLM) agents have shown stunning results in complex tasks, yet they often operate in isolation, failing to learn from past experiences. Existing memory-based methods primarily store raw trajectories, which are often redundant and noise-heavy. This prevents agents from extracting high-level, reusable behavioral patterns that are essential for generalization. In this paper, we propose SkillRL, a framework that bridges the gap between raw experience and policy improvement through automatic skill discovery and recursive evolution. Our approach introduces an experience-based distillation mechanism to build a hierarchical skill library SkillBank, an adaptive retrieval strategy for general and task-specific heuristics, and a recursive evolution mechanism that allows the skill library to co-evolve with the agent's policy during reinforcement learning. These innovations significantly reduce the token footprint while enhancing reasoning utility. Experimental results on ALFWorld, WebShop and seven search-augmented tasks demonstrate that SkillRL achieves state-of-the-art performance, outperforming strong baselines over 15.3% and maintaining robustness as task complexity increases. Code is available at this https://github.com/aiming-lab/SkillRL.

SkillRL: Evoluzione di Agenti tramite Apprendimento per Rinforzo Ricorsivo con Abilità Aumentate

SkillRL: Evolving Agents via Recursive Skill-Augmented Reinforcement Learning

Abstract

Support