SkillRL: Evolução de Agentes por meio de Aprendizagem por Reforço Recursiva com Habilidades

Resumo

Os agentes de Large Language Model (LLM) têm demonstrado resultados impressionantes em tarefas complexas, mas frequentemente operam de forma isolada, sem aprender com experiências passadas. Os métodos existentes baseados em memória armazenam principalmente trajetórias brutas, que são muitas vezes redundantes e carregadas de ruído. Isso impede que os agentes extraiam padrões comportamentais de alto nível e reutilizáveis, essenciais para a generalização. Neste artigo, propomos o SkillRL, uma estrutura que preenche a lacuna entre a experiência bruta e a melhoria da política através da descoberta automática de habilidades e da evolução recursiva. Nossa abordagem introduz um mecanismo de destilação baseado em experiência para construir uma biblioteca hierárquica de habilidades (SkillBank), uma estratégia de recuperação adaptativa para heurísticas gerais e específicas de tarefas, e um mecanismo de evolução recursiva que permite que a biblioteca de habilidades co-evolua com a política do agente durante o aprendizado por reforço. Essas inovações reduzem significamente a pegada de tokens enquanto aumentam a utilidade do raciocínio. Resultados experimentais no ALFWorld, WebShop e sete tarefas com aumento de busca demonstram que o SkillRL alcança desempenho de última geração, superando linhas de base fortes em mais de 15,3% e mantendo robustez à medida que a complexidade da tarefa aumenta. O código está disponível em https://github.com/aiming-lab/SkillRL.

English

Large Language Model (LLM) agents have shown stunning results in complex tasks, yet they often operate in isolation, failing to learn from past experiences. Existing memory-based methods primarily store raw trajectories, which are often redundant and noise-heavy. This prevents agents from extracting high-level, reusable behavioral patterns that are essential for generalization. In this paper, we propose SkillRL, a framework that bridges the gap between raw experience and policy improvement through automatic skill discovery and recursive evolution. Our approach introduces an experience-based distillation mechanism to build a hierarchical skill library SkillBank, an adaptive retrieval strategy for general and task-specific heuristics, and a recursive evolution mechanism that allows the skill library to co-evolve with the agent's policy during reinforcement learning. These innovations significantly reduce the token footprint while enhancing reasoning utility. Experimental results on ALFWorld, WebShop and seven search-augmented tasks demonstrate that SkillRL achieves state-of-the-art performance, outperforming strong baselines over 15.3% and maintaining robustness as task complexity increases. Code is available at this https://github.com/aiming-lab/SkillRL.

SkillRL: Evolução de Agentes por meio de Aprendizagem por Reforço Recursiva com Habilidades

SkillRL: Evolving Agents via Recursive Skill-Augmented Reinforcement Learning

Resumo

Support