SkillOS: Curación de Habilidades para el Aprendizaje de Agentes de Auto-evolución

Resumen

Los agentes basados en LLM se despliegan cada vez más para manejar tareas en flujo continuo, pero a menudo siguen siendo solucionadores de problemas puntuales que no aprenden de interacciones pasadas. Las habilidades reutilizables destiladas de la experiencia proporcionan un sustrato natural para la auto-evolución, donde la curación de habilidades de alta calidad constituye el cuello de botella principal. Los enfoques existentes dependen de la curación manual de habilidades, prescriben operaciones heurísticas o entrenan operaciones de habilidades a corto plazo. Sin embargo, aún luchan por aprender políticas de curación complejas a largo plazo a partir de retroalimentación indirecta y retardada. Para abordar este desafío, proponemos SkillOS, una receta de entrenamiento por RL impulsada por experiencia para aprender la curación de habilidades en agentes auto-evolutivos. SkillOS empareja un ejecutor de agente congelado que recupera y aplica habilidades con un curador de habilidades entrenable que actualiza un SkillRepo externo a partir de la experiencia acumulada. Para proporcionar señales de aprendizaje para la curación, diseñamos recompensas compuestas y entrenamos en flujos de tareas agrupadas basadas en dependencias de tareas relevantes para las habilidades, donde trayectorias anteriores actualizan el SkillRepo y tareas relacionadas posteriores evalúan estas actualizaciones. En tareas agenticas de múltiples turnos y tareas de razonamiento de un solo turno, SkillOS supera consistentemente a líneas base sin memoria y con memoria sólida tanto en efectividad como en eficiencia, generalizándose el curador de habilidades aprendido a través de diferentes arquitecturas de ejecutor y dominios de tareas. Análisis adicionales muestran que el curador aprendido produce un uso de habilidades más dirigido, mientras que las habilidades en SkillRepo evolucionan hacia archivos Markdown con estructuras más ricas que codifican meta-habilidades de alto nivel con el tiempo.

English

LLM-based agents are increasingly deployed to handle streaming tasks, yet they often remain one-off problem solvers that fail to learn from past interactions. Reusable skills distilled from experience provide a natural substrate for self-evolution, where high-quality skill curation serves as the key bottleneck. Existing approaches either rely on manual skill curation, prescribe heuristic skill operations, or train for short-horizon skill operations. However, they still struggle to learn complex long-term curation policies from indirect and delayed feedback. To tackle this challenge, we propose SkillOS, an experience-driven RL training recipe for learning skill curation in self-evolving agents. SkillOS pairs a frozen agent executor that retrieves and applies skills with a trainable skill curator that updates an external SkillRepo from accumulated experience. To provide learning signals for curation, we design composite rewards and train on grouped task streams based on skill-relevant task dependencies, where earlier trajectories update the SkillRepo, and later related tasks evaluate these updates. Across multi-turn agentic tasks and single-turn reasoning tasks, SkillOS consistently outperforms memory-free and strong memory-based baselines in both effectiveness and efficiency, with the learned skill curator generalizing across different executor backbones and task domains. Further analyses show that the learned curator produces more targeted skill use, while the skills in SkillRepo evolve into more richly structured Markdown files that encode higher-level meta-skills over time.

SkillOS: Curación de Habilidades para el Aprendizaje de Agentes de Auto-evolución

SkillOS: Learning Skill Curation for Self-Evolving Agents

Resumen

Support