SkillOS : Apprentissage de la curation de compétences pour des agents auto-évolutifs
SkillOS: Learning Skill Curation for Self-Evolving Agents
May 7, 2026
Auteurs: Siru Ouyang, Jun Yan, Yanfei Chen, Rujun Han, Zifeng Wang, Bhavana Dalvi Mishra, Rui Meng, Chun-Liang Li, Yizhu Jiao, Kaiwen Zha, Maohao Shen, Vishy Tirumalashetty, George Lee, Jiawei Han, Tomas Pfister, Chen-Yu Lee
cs.AI
Résumé
Les agents basés sur LLM sont de plus en plus déployés pour traiter des tâches en flux continu, mais ils restent souvent des solveurs de problèmes ponctuels qui n'apprennent pas des interactions passées. Les compétences réutilisables, distillées de l'expérience, constituent un substrat naturel pour l'auto-évolution, où la curation de compétences de haute qualité représente le principal goulot d'étranglement. Les approches existantes reposent soit sur une curation manuelle des compétences, prescrivent des opérations heuristiques sur les compétences, ou s'entraînent pour des opérations à court terme. Cependant, elles peinent encore à apprendre des politiques de curation complexes à long terme à partir de retours d'information indirects et retardés. Pour relever ce défi, nous proposons SkillOS, une méthode d'entraînement par apprentissage par renforcement axée sur l'expérience pour apprendre la curation des compétences dans les agents auto-évolutifs. SkillOS associe un exécuteur d'agent figé qui récupère et applique les compétences à un curateur de compétences entraînable qui met à jour un SkillRepo externe à partir de l'expérience accumulée. Pour fournir des signaux d'apprentissage pour la curation, nous concevons des récompenses composites et nous entraînons sur des flux de tâches groupées basés sur des dépendances de tâches pertinentes aux compétences, où les trajectoires antérieures mettent à jour le SkillRepo, et les tâches connexes ultérieures évaluent ces mises à jour. Sur des tâches agentielles multi-tours et des tâches de raisonnement en un seul tour, SkillOS surpasse constamment les lignes de base sans mémoire et les lignes de base fortes avec mémoire, tant en efficacité qu'en efficience, le curateur de compétences appris généralisant à travers différents moteurs d'exécution et domaines de tâches. Des analyses plus poussées montrent que le curateur appris produit une utilisation des compétences plus ciblée, tandis que les compétences dans le SkillRepo évoluent en fichiers Markdown plus richement structurés qui encodent des méta-compétences de plus haut niveau au fil du temps.
English
LLM-based agents are increasingly deployed to handle streaming tasks, yet they often remain one-off problem solvers that fail to learn from past interactions. Reusable skills distilled from experience provide a natural substrate for self-evolution, where high-quality skill curation serves as the key bottleneck. Existing approaches either rely on manual skill curation, prescribe heuristic skill operations, or train for short-horizon skill operations. However, they still struggle to learn complex long-term curation policies from indirect and delayed feedback. To tackle this challenge, we propose SkillOS, an experience-driven RL training recipe for learning skill curation in self-evolving agents. SkillOS pairs a frozen agent executor that retrieves and applies skills with a trainable skill curator that updates an external SkillRepo from accumulated experience. To provide learning signals for curation, we design composite rewards and train on grouped task streams based on skill-relevant task dependencies, where earlier trajectories update the SkillRepo, and later related tasks evaluate these updates. Across multi-turn agentic tasks and single-turn reasoning tasks, SkillOS consistently outperforms memory-free and strong memory-based baselines in both effectiveness and efficiency, with the learned skill curator generalizing across different executor backbones and task domains. Further analyses show that the learned curator produces more targeted skill use, while the skills in SkillRepo evolve into more richly structured Markdown files that encode higher-level meta-skills over time.