Habilidad1: Evolución Unificada de Agentes Aumentados con Habilidades mediante Aprendizaje por RefuerzoSkill1: Unified Evolution of Skill-Augmented Agents via Reinforcement Learning
Una biblioteca de habilidades persistente permite a los agentes de modelos de lenguaje reutilizar estrategias exitosas en distintas tareas. Mantener dicha biblioteca requiere tres capacidades acopladas: el agente selecciona una habilidad relevante, la utiliza durante la ejecución y destila nuevas habilidades a partir de la experiencia. Los métodos existentes optimizan estas capacidades de forma aislada o con fuentes de recompensa separadas, lo que resulta en una evolución parcial y conflictiva. Proponemos Skill1, un marco que entrena una única política para co-evolucionar la selección, utilización y destilación de habilidades hacia un objetivo compartido basado en el resultado de la tarea. La política genera una consulta para buscar en la biblioteca de habilidades, reordena los candidatos para seleccionar uno, resuelve la tarea condicionada a ella y destila una nueva habilidad a partir de la trayectoria. Todo el aprendizaje se deriva de una única señal de resultado de la tarea. Su tendencia de baja frecuencia otorga crédito a la selección y su variación de alta frecuencia otorga crédito a la destilación. Los experimentos en ALFWorld y WebShop muestran que Skill1 supera a los baselines previos basados en habilidades y en aprendizaje por refuerzo. La dinámica del entrenamiento confirma la co-evolución de las tres capacidades, y los experimentos de ablación muestran que eliminar cualquier señal de crédito degrada la evolución.