MUSE-Autoskill : Agents auto-évolutifs via création de compétences, mémoire, gestion et évaluation

Résumé

Les agents basés sur les grands modèles de langage (LLM) s'appuient sur des compétences réutilisables pour résoudre des tâches complexes. Cependant, les approches existantes de création de compétences les traitent comme des artefacts isolés et statiques, limitant leur réutilisabilité, leur fiabilité et leur amélioration à long terme. Nous proposons MUSE-Autoskill Agent (Memory-Utilizing Skill Evolution), un cadre agent centré sur les compétences qui permet aux agents d'améliorer continuellement leur capacité à résoudre des tâches en créant, réutilisant et affinant des compétences dans le cadre d'un cycle de vie unifié (création, mémoire, gestion, évaluation et raffinement). Notre cadre permet aux agents de créer des compétences à la demande, de les stocker et de les réutiliser entre les tâches, de les organiser et de les sélectionner efficacement, et de les évaluer via des tests unitaires et des retours d'exécution pour un raffinement continu. Nous introduisons également une mémoire au niveau des compétences qui accumule l'expérience de chaque compétence à travers les tâches, permettant une réutilisation et une adaptation plus efficaces au fil du temps. Des expériences sur SkillsBench fournissent des preuves préliminaires que les compétences gérées par cycle de vie peuvent améliorer le succès des tâches, l'efficacité, la réutilisation et le transfert inter-agents, soulignant l'importance de traiter les compétences comme des actifs durables, tenant compte de l'expérience et testables.

English

Large language model (LLM) agents rely on reusable skills to solve complex tasks. However, existing skill creation approaches treat skills as isolated and static artifacts, limiting their reusability, reliability, and long-term improvement. We propose MUSE-Autoskill Agent (Memory-Utilizing Skill Evolution), a skill-centric agent framework that lets agents continuously improve their task-solving capability by creating, reusing, and refining skills under a unified lifecycle (creation, memory, management, evaluation, and refinement). Our framework enables agents to create skills on demand, store and reuse them across tasks, organize and select them efficiently, and evaluate them through unit tests and runtime feedback for continuous refinement. We further introduce skill-level memory that accumulates experience for each skill across tasks, enabling more effective reuse and adaptation over time. Experiments on SkillsBench provide initial evidence that lifecycle-managed skills can improve task success, efficiency, reuse, and cross-agent transfer, highlighting the importance of treating skills as long-lived, experience-aware, and testable assets.