MUSE-Autoskill: Zelf-evoluerende agenten via vaardigheidscreatie, geheugen, beheer en evaluatie

Samenvatting

LLM-agenten maken gebruik van herbruikbare vaardigheden om complexe taken op te lossen. Bestaande benaderingen voor het creëren van vaardigheden behandelen deze echter als geïsoleerde en statische artefacten, wat hun herbruikbaarheid, betrouwbaarheid en langdurige verbetering beperkt. Wij stellen MUSE-Autoskill Agent (Memory-Utilizing Skill Evolution) voor, een vaardigheidsgeoriënteerd agentraamwerk waarmee agenten hun vermogen om taken op te lossen continu kunnen verbeteren door vaardigheden te creëren, hergebruiken en verfijnen binnen een uniforme levenscyclus (creatie, geheugen, beheer, evaluatie en verfijning). Ons raamwerk stelt agenten in staat om vaardigheden op aanvraag te creëren, ze op te slaan en te hergebruiken bij verschillende taken, ze efficiënt te organiseren en selecteren, en ze te evalueren via eenheidstests en runtime-feedback voor continue verfijning. We introduceren verder vaardigheidsniveau-geheugen dat per vaardigheid ervaring accumuleert over taken heen, wat effectiever hergebruik en aanpassing in de loop der tijd mogelijk maakt. Experimenten op SkillsBench leveren eerste aanwijzingen dat levenscyclus-beheerde vaardigheden taaksucces, efficiëntie, hergebruik en overdracht tussen agenten kunnen verbeteren, wat het belang benadrukt van het behandelen van vaardigheden als langdurige, ervaringsbewuste en testbare activa.

English

Large language model (LLM) agents rely on reusable skills to solve complex tasks. However, existing skill creation approaches treat skills as isolated and static artifacts, limiting their reusability, reliability, and long-term improvement. We propose MUSE-Autoskill Agent (Memory-Utilizing Skill Evolution), a skill-centric agent framework that lets agents continuously improve their task-solving capability by creating, reusing, and refining skills under a unified lifecycle (creation, memory, management, evaluation, and refinement). Our framework enables agents to create skills on demand, store and reuse them across tasks, organize and select them efficiently, and evaluate them through unit tests and runtime feedback for continuous refinement. We further introduce skill-level memory that accumulates experience for each skill across tasks, enabling more effective reuse and adaptation over time. Experiments on SkillsBench provide initial evidence that lifecycle-managed skills can improve task success, efficiency, reuse, and cross-agent transfer, highlighting the importance of treating skills as long-lived, experience-aware, and testable assets.