MUSE-Autoskill: Agentes autoevolutivos mediante creación, memoria, gestión y evaluación de habilidades

Resumen

Los agentes basados en modelos de lenguaje de gran escala (LLM) dependen de habilidades reutilizables para resolver tareas complejas. Sin embargo, los enfoques existentes para la creación de habilidades tratan estas como artefactos aislados y estáticos, lo que limita su reutilización, fiabilidad y mejora a largo plazo. Proponemos MUSE-Autoskill Agent (Evolución de Habilidades mediante el Uso de Memoria), un marco de agente centrado en habilidades que permite a los agentes mejorar continuamente su capacidad de resolución de tareas mediante la creación, reutilización y refinamiento de habilidades bajo un ciclo de vida unificado (creación, memoria, gestión, evaluación y refinamiento). Nuestro marco permite a los agentes crear habilidades bajo demanda, almacenarlas y reutilizarlas en distintas tareas, organizarlas y seleccionarlas de manera eficiente, y evaluarlas mediante pruebas unitarias y retroalimentación en tiempo de ejecución para su refinamiento continuo. Además, introducimos una memoria a nivel de habilidades que acumula experiencia para cada habilidad a través de las tareas, lo que permite una reutilización y adaptación más efectivas con el tiempo. Los experimentos realizados en SkillsBench proporcionan evidencia inicial de que las habilidades gestionadas mediante un ciclo de vida pueden mejorar el éxito en las tareas, la eficiencia, la reutilización y la transferencia entre agentes, lo que subraya la importancia de tratar las habilidades como activos duraderos, sensibles a la experiencia y comprobables.

English

Large language model (LLM) agents rely on reusable skills to solve complex tasks. However, existing skill creation approaches treat skills as isolated and static artifacts, limiting their reusability, reliability, and long-term improvement. We propose MUSE-Autoskill Agent (Memory-Utilizing Skill Evolution), a skill-centric agent framework that lets agents continuously improve their task-solving capability by creating, reusing, and refining skills under a unified lifecycle (creation, memory, management, evaluation, and refinement). Our framework enables agents to create skills on demand, store and reuse them across tasks, organize and select them efficiently, and evaluate them through unit tests and runtime feedback for continuous refinement. We further introduce skill-level memory that accumulates experience for each skill across tasks, enabling more effective reuse and adaptation over time. Experiments on SkillsBench provide initial evidence that lifecycle-managed skills can improve task success, efficiency, reuse, and cross-agent transfer, highlighting the importance of treating skills as long-lived, experience-aware, and testable assets.