SkillOS: Vaardighedencuratie voor zelfontwikkelende agents

Samenvatting

Op LLM gebaseerde agenten worden steeds vaker ingezet voor het verwerken van streamtaken, maar fungeren vaak nog als eenmalige probleemoplossers die niet leren van eerdere interacties. Herbruikbare vaardigheden die uit ervaring zijn gedistilleerd, vormen een natuurlijk substraat voor zelfevolutie, waarbij hoogwaardige vaardigheidscuratie de belangrijkste bottleneck vormt. Bestaande benaderingen vertrouwen op handmatige vaardigheidscuratie, voorschrijven heuristische vaardigheidsoperaties, of trainen voor kortetermijn-vaardigheidsoperaties. Desalniettemin hebben ze moeite om complexe langetermijn-curatiebeleid te leren uit indirecte en vertraagde feedback. Om deze uitdaging aan te pakken, stellen we SkillOS voor, een op ervaring gebaseerd RL-trainingsrecept voor het aanleren van vaardigheidscuratie in zelf-evoluerende agenten. SkillOS koppelt een bevroren agent-uitvoerder die vaardigheden ophaalt en toepast aan een trainbare vaardigheidscurator die een externe SkillRepo bijwerkt op basis van opgebouwde ervaring. Om leersignalen voor curatie te bieden, ontwerpen we samengestelde beloningen en trainen we op gegroepeerde taakstromen gebaseerd op vaardigheidsgerelateerde taakafhankelijkheden, waarbij eerdere trajecten de SkillRepo bijwerken en latere gerelateerde taken deze updates evalueren. Over multi-turn agent-taken en single-turn redeneertaken heen, presteert SkillOS consistent beter dan geheugenloze en sterke op geheugen gebaseerde vergelijkingsmodellen in zowel effectiviteit als efficiëntie, waarbij de aangeleerde vaardigheidscurator generaliseert over verschillende uitvoerder-backbones en taakdomeinen. Verdere analyses tonen aan dat de aangeleerde curator gerichter gebruik van vaardigheden produceert, terwijl de vaardigheden in de SkillRepo evolueren naar rijker gestructureerde Markdown-bestanden die na verloop van tijd hogere meta-vaardigheden coderen.

English

LLM-based agents are increasingly deployed to handle streaming tasks, yet they often remain one-off problem solvers that fail to learn from past interactions. Reusable skills distilled from experience provide a natural substrate for self-evolution, where high-quality skill curation serves as the key bottleneck. Existing approaches either rely on manual skill curation, prescribe heuristic skill operations, or train for short-horizon skill operations. However, they still struggle to learn complex long-term curation policies from indirect and delayed feedback. To tackle this challenge, we propose SkillOS, an experience-driven RL training recipe for learning skill curation in self-evolving agents. SkillOS pairs a frozen agent executor that retrieves and applies skills with a trainable skill curator that updates an external SkillRepo from accumulated experience. To provide learning signals for curation, we design composite rewards and train on grouped task streams based on skill-relevant task dependencies, where earlier trajectories update the SkillRepo, and later related tasks evaluate these updates. Across multi-turn agentic tasks and single-turn reasoning tasks, SkillOS consistently outperforms memory-free and strong memory-based baselines in both effectiveness and efficiency, with the learned skill curator generalizing across different executor backbones and task domains. Further analyses show that the learned curator produces more targeted skill use, while the skills in SkillRepo evolve into more richly structured Markdown files that encode higher-level meta-skills over time.

SkillOS: Vaardighedencuratie voor zelfontwikkelende agents

SkillOS: Learning Skill Curation for Self-Evolving Agents

Samenvatting

Support