MUSE-Autoskill: Agentes Auto-Evolutivos via Criação de Habilidades, Memória, Gerenciamento e Avaliação

Resumo

Agentes baseados em grandes modelos de linguagem (LLMs) dependem de habilidades reutilizáveis para resolver tarefas complexas. No entanto, as abordagens existentes para criação de habilidades tratam-nas como artefatos isolados e estáticos, limitando sua reutilização, confiabilidade e aprimoramento contínuo. Propomos o MUSE-Autoskill Agent (Agente de Evolução de Habilidades com Utilização de Memória), uma estrutura centrada em habilidades que permite aos agentes melhorar continuamente sua capacidade de resolução de tarefas por meio da criação, reutilização e refinamento de habilidades sob um ciclo de vida unificado (criação, memória, gerenciamento, avaliação e refinamento). Nossa estrutura capacita os agentes a criar habilidades sob demanda, armazená-las e reutilizá-las entre tarefas, organizá-las e selecioná-las de forma eficiente, além de avaliá-las por meio de testes unitários e feedback em tempo de execução para refinamento contínuo. Introduzimos também a memória em nível de habilidade, que acumula experiência para cada habilidade ao longo das tarefas, possibilitando reutilização e adaptação mais eficazes ao longo do tempo. Experimentos no SkillsBench fornecem evidências iniciais de que habilidades gerenciadas por ciclo de vida podem melhorar o sucesso, a eficiência, a reutilização e a transferência entre agentes, destacando a importância de tratar as habilidades como ativos duradouros, conscientes de experiência e testáveis.

English

Large language model (LLM) agents rely on reusable skills to solve complex tasks. However, existing skill creation approaches treat skills as isolated and static artifacts, limiting their reusability, reliability, and long-term improvement. We propose MUSE-Autoskill Agent (Memory-Utilizing Skill Evolution), a skill-centric agent framework that lets agents continuously improve their task-solving capability by creating, reusing, and refining skills under a unified lifecycle (creation, memory, management, evaluation, and refinement). Our framework enables agents to create skills on demand, store and reuse them across tasks, organize and select them efficiently, and evaluate them through unit tests and runtime feedback for continuous refinement. We further introduce skill-level memory that accumulates experience for each skill across tasks, enabling more effective reuse and adaptation over time. Experiments on SkillsBench provide initial evidence that lifecycle-managed skills can improve task success, efficiency, reuse, and cross-agent transfer, highlighting the importance of treating skills as long-lived, experience-aware, and testable assets.