SkillRL: Evolución de Agentes mediante Aprendizaje por Refuerzo Recursivo con Aumento de Habilidades
SkillRL: Evolving Agents via Recursive Skill-Augmented Reinforcement Learning
February 9, 2026
Autores: Peng Xia, Jianwen Chen, Hanyang Wang, Jiaqi Liu, Kaide Zeng, Yu Wang, Siwei Han, Yiyang Zhou, Xujiang Zhao, Haifeng Chen, Zeyu Zheng, Cihang Xie, Huaxiu Yao
cs.AI
Resumen
Los agentes de modelos de lenguaje grande (LLM) han demostrado resultados sorprendentes en tareas complejas, pero a menudo operan de forma aislada, sin aprender de experiencias pasadas. Los métodos existentes basados en memoria almacenan principalmente trayectorias brutas, que suelen ser redundantes y contener mucho ruido. Esto impide que los agentes extraigan patrones de comportamiento reutilizables y de alto nivel, esenciales para la generalización. En este artículo, proponemos SkillRL, un marco que cierra la brecha entre la experiencia bruta y la mejora de políticas mediante el descubrimiento automático de habilidades y la evolución recursiva. Nuestro enfoque introduce un mecanismo de destilación basado en la experiencia para construir una biblioteca jerárquica de habilidades (SkillBank), una estrategia de recuperación adaptable para heurísticas generales y específicas de tareas, y un mecanismo de evolución recursiva que permite que la biblioteca de habilidades co-evolucione con la política del agente durante el aprendizaje por refuerzo. Estas innovaciones reducen significamente la huella de tokens mientras mejoran la utilidad del razonamiento. Los resultados experimentales en ALFWorld, WebShop y siete tareas aumentadas con búsqueda demuestran que SkillRL logra un rendimiento de vanguardia, superando a líneas de base sólidas en más de un 15.3% y manteniendo la robustez a medida que aumenta la complejidad de las tareas. El código está disponible en https://github.com/aiming-lab/SkillRL.
English
Large Language Model (LLM) agents have shown stunning results in complex tasks, yet they often operate in isolation, failing to learn from past experiences. Existing memory-based methods primarily store raw trajectories, which are often redundant and noise-heavy. This prevents agents from extracting high-level, reusable behavioral patterns that are essential for generalization. In this paper, we propose SkillRL, a framework that bridges the gap between raw experience and policy improvement through automatic skill discovery and recursive evolution. Our approach introduces an experience-based distillation mechanism to build a hierarchical skill library SkillBank, an adaptive retrieval strategy for general and task-specific heuristics, and a recursive evolution mechanism that allows the skill library to co-evolve with the agent's policy during reinforcement learning. These innovations significantly reduce the token footprint while enhancing reasoning utility. Experimental results on ALFWorld, WebShop and seven search-augmented tasks demonstrate that SkillRL achieves state-of-the-art performance, outperforming strong baselines over 15.3% and maintaining robustness as task complexity increases. Code is available at this https://github.com/aiming-lab/SkillRL.