Aprendizaje por Refuerzo para Agentes de Automejora con Biblioteca de Habilidades
Reinforcement Learning for Self-Improving Agent with Skill Library
December 18, 2025
Autores: Jiongxiao Wang, Qiaojing Yan, Yawei Wang, Yijun Tian, Soumya Smruti Mishra, Zhichao Xu, Megha Gandhi, Panpan Xu, Lin Lee Cheong
cs.AI
Resumen
Los agentes basados en Modelos de Lenguaje a Gran Escala (LLM) han demostrado capacidades notables en razonamiento complejo e interacciones multi-turno, pero luchan por mejorar y adaptarse continuamente cuando se despliegan en nuevos entornos. Un enfoque prometedor es implementar bibliotecas de habilidades que permitan a los agentes aprender, validar y aplicar nuevas habilidades. Sin embargo, los enfoques actuales de bibliotecas de habilidades dependen principalmente de la elicitación por LLM, lo que hace difícil una implementación consistente. Para superar estos desafíos, proponemos un enfoque basado en Aprendizaje por Refuerzo (RL) para mejorar las capacidades de auto-mejora de los agentes con una biblioteca de habilidades. Específicamente, presentamos Skill Augmented GRPO for self-Evolution (SAGE), un novedoso marco de RL que incorpora sistemáticamente habilidades en el aprendizaje. El componente clave del marco, el *Sequential Rollout*, despliega agentes iterativamente a través de una cadena de tareas similares para cada iteración. A medida que los agentes navegan por la cadena de tareas, las habilidades generadas en tareas anteriores se acumulan en la biblioteca y quedan disponibles para tareas subsiguientes. Adicionalmente, el marco mejora la generación y utilización de habilidades mediante una Recompensa Integrada de Habilidades que complementa las recompensas originales basadas en resultados. Los resultados experimentales en AppWorld demuestran que SAGE, aplicado a un modelo ajustado supervisadamente con experiencia experta, logra un 8.9% más de Finalización de Objetivos de Escenario, mientras requiere un 26% menos de pasos de interacción y genera un 59% menos de tokens, superando sustancialmente a los enfoques existentes tanto en precisión como en eficiencia.
English
Large Language Model (LLM)-based agents have demonstrated remarkable capabilities in complex reasoning and multi-turn interactions but struggle to continuously improve and adapt when deployed in new environments. One promising approach is implementing skill libraries that allow agents to learn, validate, and apply new skills. However, current skill library approaches rely primarily on LLM prompting, making consistent skill library implementation challenging. To overcome these challenges, we propose a Reinforcement Learning (RL)-based approach to enhance agents' self-improvement capabilities with a skill library. Specifically, we introduce Skill Augmented GRPO for self-Evolution (SAGE), a novel RL framework that systematically incorporates skills into learning. The framework's key component, Sequential Rollout, iteratively deploys agents across a chain of similar tasks for each rollout. As agents navigate through the task chain, skills generated from previous tasks accumulate in the library and become available for subsequent tasks. Additionally, the framework enhances skill generation and utilization through a Skill-integrated Reward that complements the original outcome-based rewards. Experimental results on AppWorld demonstrate that SAGE, when applied to supervised-finetuned model with expert experience, achieves 8.9% higher Scenario Goal Completion while requiring 26% fewer interaction steps and generating 59% fewer tokens, substantially outperforming existing approaches in both accuracy and efficiency.