SkillsVote : Gouvernance du cycle de vie des compétences des agents, de la collecte à la recommandation et à l'évolution

Résumé

Les agents LLM à long horizon laissent des traces qui pourraient devenir une expérience réutilisable, mais les trajectoires brutes sont bruyantes et difficiles à gérer. Nous traitons les compétences agent comme un schéma d'expérience qui couple des scripts exécutables avec des consignes non exécutables sur les procédures. Pourtant, les écosystèmes ouverts de compétences contiennent des artefacts redondants, inégaux et sensibles à l'environnement, et des mises à jour indiscriminées peuvent polluer le contexte futur. Nous présentons SkillsVote, un cadre de gouvernance du cycle de vie pour les compétences agent, de la collecte et de la recommandation à l'évolution. SkillsVote profile un corpus open-source à l'échelle du million pour les exigences environnementales, la qualité et la vérifiabilité, puis synthétise des tâches pour des compétences vérifiables. Avant l'exécution, SkillsVote effectue une recherche agentique dans une bibliothèque de compétences structurée pour exposer le contexte instructif des compétences. Après l'exécution, il décompose les trajectoires en sous-tâches liées aux compétences, attribue les résultats à l'utilisation des compétences, à l'exploration de l'agent, à l'environnement et aux signaux de résultat, et n'admet que les découvertes réussies et réutilisables dans des mises à jour contrôlées par les preuves. Dans notre évaluation, l'évolution hors ligne améliore GPT-5.2 sur Terminal-Bench 2.0 jusqu'à 7,9 points de pourcentage, tandis que l'évolution en ligne améliore SWE-Bench Pro jusqu'à 2,6 points de pourcentage. Dans l'ensemble, les bibliothèques de compétences externes gouvernées peuvent améliorer des agents figés sans mises à jour du modèle lorsque les systèmes contrôlent l'exposition, le crédit et la préservation.

English

Long-horizon LLM agents leave traces that could become reusable experience, but raw trajectories are noisy and hard to govern. We treat Agent Skills as an experience schema that couples executable scripts, with non-executable guidance on procedures. Yet open skill ecosystems contain redundant, uneven, environment-sensitive artifacts, and indiscriminate updates can pollute future context. We present SkillsVote, a lifecycle-governance framework for Agent Skills from collection and recommendation to evolution. SkillsVote profiles a million-scale open-source corpus for environment requirements, quality, and verifiability, then synthesizes tasks for verifiable skills. Before execution, SkillsVote performs agentic library search over structured skill library to expose instructional skill context. After execution, it decomposes trajectories into skill-linked subtasks, attributes outcomes to skill use, agent exploration, environment, and result signals, and admits only successful reusable discoveries to evidence-gated updates. In our evaluation, offline evolution improves GPT-5.2 on Terminal-Bench 2.0 by up to 7.9 pp, while online evolution improves SWE-Bench Pro by up to 2.6 pp. Overall, governed external skill libraries can improve frozen agents without model updates when systems control exposure, credit, and preservation.