SkillOS: Lernfähigkeiten-Kuration für sich selbst weiterentwickelnde Agenten
SkillOS: Learning Skill Curation for Self-Evolving Agents
May 7, 2026
Autoren: Siru Ouyang, Jun Yan, Yanfei Chen, Rujun Han, Zifeng Wang, Bhavana Dalvi Mishra, Rui Meng, Chun-Liang Li, Yizhu Jiao, Kaiwen Zha, Maohao Shen, Vishy Tirumalashetty, George Lee, Jiawei Han, Tomas Pfister, Chen-Yu Lee
cs.AI
Zusammenfassung
LLM-basierte Agenten werden zunehmend für die Bearbeitung von Streaming-Aufgaben eingesetzt, bleiben jedoch oft Einmal-Problemlöser, die nicht aus vergangenen Interaktionen lernen. Aus Erfahrungen destillierte, wiederverwendbare Fähigkeiten bieten ein natürliches Substrat für die Selbstentwicklung, wobei die hochwertige Kuratierung von Fähigkeiten den entscheidenden Engpass darstellt. Bestehende Ansätze verlassen sich entweder auf manuelle Fähigkeitskuratierung, vorgegebene heuristische Fähigkeitsoperationen oder trainieren Operationen für kurzfristige Fähigkeiten. Dennoch haben sie Schwierigkeiten, komplexe langfristige Kuratierungsstrategien aus indirektem und verzögertem Feedback zu erlernen. Um diese Herausforderung zu bewältigen, schlagen wir SkillOS vor, ein erfahrungsgestütztes RL-Trainingsverfahren zum Erlernen der Fähigkeitskuratierung in sich selbst entwickelnden Agenten. SkillOS kombiniert einen eingefrorenen Agenten-Executor, der Fähigkeiten abruft und anwendet, mit einem trainierbaren Fähigkeitskurator, der ein externes SkillRepo aus gesammelten Erfahrungen aktualisiert. Um Lernsignale für die Kuratierung bereitzustellen, entwerfen wir zusammengesetzte Belohnungen und trainieren anhand gruppierter Aufgabenströme, die auf fähigkeitsrelevanten Aufgabenabhängigkeiten basieren. Dabei aktualisieren frühere Trajektorien das SkillRepo, und später folgende verwandte Aufgaben bewerten diese Aktualisierungen. In mehrstufigen agentenbasierten Aufgaben und einstufigen Reasoning-Aufgaben übertrifft SkillOS durchgängig speicherlose und leistungsstarke speicherbasierte Baseline-Modelle sowohl in Effektivität als auch Effizienz, wobei der gelernte Fähigkeitskurator über verschiedene Executor-Architekturen und Aufgabenbereiche hinweg generalisiert. Weitere Analysen zeigen, dass der gelernte Kurator eine zielgerichtetere Fähigkeitsnutzung bewirkt, während sich die Fähigkeiten im SkillRepo im Laufe der Zeit zu strukturierteren Markdown-Dateien entwickeln, die höherwertige Meta-Fähigkeiten kodieren.
English
LLM-based agents are increasingly deployed to handle streaming tasks, yet they often remain one-off problem solvers that fail to learn from past interactions. Reusable skills distilled from experience provide a natural substrate for self-evolution, where high-quality skill curation serves as the key bottleneck. Existing approaches either rely on manual skill curation, prescribe heuristic skill operations, or train for short-horizon skill operations. However, they still struggle to learn complex long-term curation policies from indirect and delayed feedback. To tackle this challenge, we propose SkillOS, an experience-driven RL training recipe for learning skill curation in self-evolving agents. SkillOS pairs a frozen agent executor that retrieves and applies skills with a trainable skill curator that updates an external SkillRepo from accumulated experience. To provide learning signals for curation, we design composite rewards and train on grouped task streams based on skill-relevant task dependencies, where earlier trajectories update the SkillRepo, and later related tasks evaluate these updates. Across multi-turn agentic tasks and single-turn reasoning tasks, SkillOS consistently outperforms memory-free and strong memory-based baselines in both effectiveness and efficiency, with the learned skill curator generalizing across different executor backbones and task domains. Further analyses show that the learned curator produces more targeted skill use, while the skills in SkillRepo evolve into more richly structured Markdown files that encode higher-level meta-skills over time.