SkillOS: Обучение курированию навыков для саморазвивающихся агентов

Аннотация

Агенты на основе больших языковых моделей все чаще применяются для решения потоковых задач, однако зачастую они остаются разовыми решателями проблем, не способными учиться на прошлых взаимодействиях. Повторно используемые навыки, извлеченные из опыта, представляют собой естественную основу для саморазвития, где ключевым узким местом выступает качественный кураторский отбор навыков. Существующие подходы либо полагаются на ручной отбор навыков, либо предписывают эвристические операции с ними, либо обучают операциям с навыками на коротком горизонте. Однако они по-прежнему не способны эффективно обучаться сложным долгосрочным стратегиям кураторства на основе косвенной и отсроченной обратной связи. Для решения этой проблемы мы предлагаем SkillOS — опытный рецепт обучения с подкреплением для освоения кураторства навыков в саморазвивающихся агентах. SkillOS сочетает замороженный исполнитель агента, который извлекает и применяет навыки, с обучаемым куратором навыков, который обновляет внешнее хранилище SkillRepo на основе накопленного опыта. Для формирования обучающих сигналов кураторства мы разрабатываем составные вознаграждения и проводим обучение на сгруппированных потоках задач с учетом зависимостей между задачами, связанными с навыками, где ранние траектории обновляют SkillRepo, а последующие связанные задачи оценивают эти обновления. В многошаговых агентных задачах и одношаговых задачах логического вывода SkillOS стабильно превосходит по эффективности и производительности базовые методы без памяти и сильные методы с памятью, причем обученный куратор навыков демонстрирует обобщаемость на различные архитектуры исполнителей и предметные области. Дальнейший анализ показывает, что обученный куратор обеспечивает более целенаправленное использование навыков, а навыки в SkillRepo со временем эволюционируют в более структурированные Markdown-файлы, кодирующие метанавыки более высокого уровня.

English

LLM-based agents are increasingly deployed to handle streaming tasks, yet they often remain one-off problem solvers that fail to learn from past interactions. Reusable skills distilled from experience provide a natural substrate for self-evolution, where high-quality skill curation serves as the key bottleneck. Existing approaches either rely on manual skill curation, prescribe heuristic skill operations, or train for short-horizon skill operations. However, they still struggle to learn complex long-term curation policies from indirect and delayed feedback. To tackle this challenge, we propose SkillOS, an experience-driven RL training recipe for learning skill curation in self-evolving agents. SkillOS pairs a frozen agent executor that retrieves and applies skills with a trainable skill curator that updates an external SkillRepo from accumulated experience. To provide learning signals for curation, we design composite rewards and train on grouped task streams based on skill-relevant task dependencies, where earlier trajectories update the SkillRepo, and later related tasks evaluate these updates. Across multi-turn agentic tasks and single-turn reasoning tasks, SkillOS consistently outperforms memory-free and strong memory-based baselines in both effectiveness and efficiency, with the learned skill curator generalizing across different executor backbones and task domains. Further analyses show that the learned curator produces more targeted skill use, while the skills in SkillRepo evolve into more richly structured Markdown files that encode higher-level meta-skills over time.

SkillOS: Обучение курированию навыков для саморазвивающихся агентов

SkillOS: Learning Skill Curation for Self-Evolving Agents

Аннотация

Support