SkillsVote: Gobernanza del ciclo de vida de las habilidades de los agentes desde la recolección, la recomendación, hasta la evolución

Resumen

Los agentes LLM de largo horizonte dejan rastros que podrían convertirse en experiencia reutilizable, pero las trayectorias en bruto son ruidosas y difíciles de gobernar. Tratamos las Habilidades de Agente como un esquema de experiencia que combina scripts ejecutables con guías no ejecutables sobre procedimientos. Sin embargo, los ecosistemas abiertos de habilidades contienen artefactos redundantes, desiguales y sensibles al entorno, y las actualizaciones indiscriminadas pueden contaminar el contexto futuro. Presentamos SkillsVote, un marco de gobernanza del ciclo de vida para Habilidades de Agente, desde la recolección y recomendación hasta la evolución. SkillsVote perfila un corpus open-source a escala de millones para identificar requisitos de entorno, calidad y verificabilidad, y luego sintetiza tareas para habilidades verificables. Antes de la ejecución, SkillsVote realiza una búsqueda agentiva en una biblioteca estructurada de habilidades para exponer el contexto instructivo de la habilidad. Tras la ejecución, descompone las trayectorias en subtareas vinculadas a habilidades, atribuye los resultados al uso de la habilidad, la exploración del agente, el entorno y las señales de resultado, y admite solo los descubrimientos reutilizables exitosos en actualizaciones basadas en evidencia. En nuestra evaluación, la evolución fuera de línea mejora GPT-5.2 en Terminal-Bench 2.0 hasta en 7.9 puntos porcentuales, mientras que la evolución en línea mejora SWE-Bench Pro hasta en 2.6 pp. En general, las bibliotecas externas de habilidades gobernadas pueden mejorar agentes congelados sin actualizaciones del modelo cuando los sistemas controlan la exposición, el crédito y la preservación.

English

Long-horizon LLM agents leave traces that could become reusable experience, but raw trajectories are noisy and hard to govern. We treat Agent Skills as an experience schema that couples executable scripts, with non-executable guidance on procedures. Yet open skill ecosystems contain redundant, uneven, environment-sensitive artifacts, and indiscriminate updates can pollute future context. We present SkillsVote, a lifecycle-governance framework for Agent Skills from collection and recommendation to evolution. SkillsVote profiles a million-scale open-source corpus for environment requirements, quality, and verifiability, then synthesizes tasks for verifiable skills. Before execution, SkillsVote performs agentic library search over structured skill library to expose instructional skill context. After execution, it decomposes trajectories into skill-linked subtasks, attributes outcomes to skill use, agent exploration, environment, and result signals, and admits only successful reusable discoveries to evidence-gated updates. In our evaluation, offline evolution improves GPT-5.2 on Terminal-Bench 2.0 by up to 7.9 pp, while online evolution improves SWE-Bench Pro by up to 2.6 pp. Overall, governed external skill libraries can improve frozen agents without model updates when systems control exposure, credit, and preservation.