MUSE-Autoskill: саморазвивающиеся агенты посредством создания навыков, памяти, управления и оценки

Аннотация

Агенты на основе больших языковых моделей (LLM) полагаются на переиспользуемые навыки для решения сложных задач. Однако существующие подходы к созданию навыков рассматривают их как изолированные и статические артефакты, что ограничивает их переиспользуемость, надежность и долгосрочное улучшение. Мы предлагаем MUSE-Autoskill Agent (агент с эволюцией навыков, использующий память) — ориентированную на навыки агентную структуру, которая позволяет агентам непрерывно улучшать свою способность решать задачи путем создания, повторного использования и уточнения навыков в рамках единого жизненного цикла (создание, память, управление, оценка и уточнение). Наша структура позволяет агентам создавать навыки по требованию, сохранять и переиспользовать их в различных задачах, эффективно организовывать и выбирать их, а также оценивать их с помощью модульных тестов и обратной связи во время выполнения для непрерывного уточнения. Мы дополнительно вводим память на уровне навыков, которая накапливает опыт для каждого навыка в разных задачах, что обеспечивает более эффективное переиспользование и адаптацию с течением времени. Эксперименты на SkillsBench дают первоначальные доказательства того, что навыки, управляемые в рамках жизненного цикла, могут улучшить успешность, эффективность, переиспользование и меж-агентный перенос задач, подчеркивая важность рассмотрения навыков как долгоживущих, обогащенных опытом и тестируемых активов.

English

Large language model (LLM) agents rely on reusable skills to solve complex tasks. However, existing skill creation approaches treat skills as isolated and static artifacts, limiting their reusability, reliability, and long-term improvement. We propose MUSE-Autoskill Agent (Memory-Utilizing Skill Evolution), a skill-centric agent framework that lets agents continuously improve their task-solving capability by creating, reusing, and refining skills under a unified lifecycle (creation, memory, management, evaluation, and refinement). Our framework enables agents to create skills on demand, store and reuse them across tasks, organize and select them efficiently, and evaluate them through unit tests and runtime feedback for continuous refinement. We further introduce skill-level memory that accumulates experience for each skill across tasks, enabling more effective reuse and adaptation over time. Experiments on SkillsBench provide initial evidence that lifecycle-managed skills can improve task success, efficiency, reuse, and cross-agent transfer, highlighting the importance of treating skills as long-lived, experience-aware, and testable assets.