Habilidad1: Evolución Unificada de Agentes Aumentados con Habilidades mediante Aprendizaje por Refuerzo

Resumen

Una biblioteca de habilidades persistente permite a los agentes de modelos de lenguaje reutilizar estrategias exitosas en distintas tareas. Mantener dicha biblioteca requiere tres capacidades acopladas: el agente selecciona una habilidad relevante, la utiliza durante la ejecución y destila nuevas habilidades a partir de la experiencia. Los métodos existentes optimizan estas capacidades de forma aislada o con fuentes de recompensa separadas, lo que resulta en una evolución parcial y conflictiva. Proponemos Skill1, un marco que entrena una única política para co-evolucionar la selección, utilización y destilación de habilidades hacia un objetivo compartido basado en el resultado de la tarea. La política genera una consulta para buscar en la biblioteca de habilidades, reordena los candidatos para seleccionar uno, resuelve la tarea condicionada a ella y destila una nueva habilidad a partir de la trayectoria. Todo el aprendizaje se deriva de una única señal de resultado de la tarea. Su tendencia de baja frecuencia otorga crédito a la selección y su variación de alta frecuencia otorga crédito a la destilación. Los experimentos en ALFWorld y WebShop muestran que Skill1 supera a los baselines previos basados en habilidades y en aprendizaje por refuerzo. La dinámica del entrenamiento confirma la co-evolución de las tres capacidades, y los experimentos de ablación muestran que eliminar cualquier señal de crédito degrada la evolución.

English

A persistent skill library allows language model agents to reuse successful strategies across tasks. Maintaining such a library requires three coupled capabilities. The agent selects a relevant skill, utilizes it during execution, and distills new skills from experience. Existing methods optimize these capabilities in isolation or with separate reward sources, resulting in partial and conflicting evolution. We propose Skill1, a framework that trains a single policy to co-evolve skill selection, utilization, and distillation toward a shared task-outcome objective. The policy generates a query to search the skill library, re-ranks candidates to select one, solves the task conditioned on it, and distills a new skill from the trajectory. All learning derives from a single task-outcome signal. Its low-frequency trend credits selection and its high-frequency variation credits distillation. Experiments on ALFWorld and WebShop show that Skill1 outperforms prior skill-based and reinforcement learning baselines. Training dynamics confirm the co-evolution of the three capabilities, and ablations show that removing any credit signal degrades the evolution.

Habilidad1: Evolución Unificada de Agentes Aumentados con Habilidades mediante Aprendizaje por Refuerzo

Skill1: Unified Evolution of Skill-Augmented Agents via Reinforcement Learning

Resumen

Support