MUSE-Autoskill: Selbstentwickelnde Agenten durch Fähigkeitserstellung, Gedächtnis, Verwaltung und Evaluierung

Zusammenfassung

Große Sprachmodelle (LLM)-Agenten sind auf wiederverwendbare Fähigkeiten angewiesen, um komplexe Aufgaben zu lösen. Allerdings behandeln bestehende Ansätze zur Fähigkeitserstellung diese als isolierte und statische Artefakte, was ihre Wiederverwendbarkeit, Zuverlässigkeit und langfristige Verbesserung einschränkt. Wir schlagen den MUSE-Autoskill Agent (Memory-Utilizing Skill Evolution) vor, ein fähigkeitszentriertes Agenten-Framework, das es Agenten ermöglicht, ihre Fähigkeit zur Aufgabenlösung kontinuierlich zu verbessern, indem sie Fähigkeiten unter einem einheitlichen Lebenszyklus (Erstellung, Gedächtnis, Verwaltung, Evaluierung und Verfeinerung) erstellen, wiederverwenden und verfeinern. Unser Framework befähigt Agenten, Fähigkeiten bedarfsgerecht zu erstellen, über Aufgaben hinweg zu speichern und wiederzuverwenden, sie effizient zu organisieren und auszuwählen sowie durch Komponententests und Laufzeit-Feedback für eine kontinuierliche Verfeinerung zu evaluieren. Wir führen ferner einen Fähigkeitsspeicher auf Skill-Ebene ein, der für jede Fähigkeit Erfahrungen über verschiedene Aufgaben hinweg akkumuliert und so eine effektivere Wiederverwendung und Anpassung im Laufe der Zeit ermöglicht. Experimente auf SkillsBench liefern erste Belege dafür, dass lebenszyklusverwaltete Fähigkeiten den Aufgabenerfolg, die Effizienz, die Wiederverwendung und die agentenübergreifende Übertragung verbessern können, und unterstreichen die Bedeutung, Fähigkeiten als langlebige, erfahrungsbewusste und testbare Ressourcen zu behandeln.

English

Large language model (LLM) agents rely on reusable skills to solve complex tasks. However, existing skill creation approaches treat skills as isolated and static artifacts, limiting their reusability, reliability, and long-term improvement. We propose MUSE-Autoskill Agent (Memory-Utilizing Skill Evolution), a skill-centric agent framework that lets agents continuously improve their task-solving capability by creating, reusing, and refining skills under a unified lifecycle (creation, memory, management, evaluation, and refinement). Our framework enables agents to create skills on demand, store and reuse them across tasks, organize and select them efficiently, and evaluate them through unit tests and runtime feedback for continuous refinement. We further introduce skill-level memory that accumulates experience for each skill across tasks, enabling more effective reuse and adaptation over time. Experiments on SkillsBench provide initial evidence that lifecycle-managed skills can improve task success, efficiency, reuse, and cross-agent transfer, highlighting the importance of treating skills as long-lived, experience-aware, and testable assets.