SkillsVote: Levenscyclusgovernance van Agentvaardigheden van Verzameling via Aanbeveling tot Evolutie

Samenvatting

LLM-agenten met een lange horizon laten sporen achter die herbruikbare ervaring kunnen worden, maar ruwe trajecten zijn lawaaierig en moeilijk te beheersen. Wij behandelen Agentvaardigheden als een ervaringsschema dat uitvoerbare scripts koppelt aan niet-uitvoerbare richtlijnen voor procedures. Toch bevatten open vaardigheidsecosystemen redundante, ongelijke en omgevingsgevoelige artefacten, en kunnen ongedifferentieerde updates toekomstige context vervuilen. We presenteren SkillsVote, een raamwerk voor levenscyclusbesturing van Agentvaardigheden, van verzameling en aanbeveling tot evolutie. SkillsVote profiteert een open-source corpus op miljoenschaal voor omgevingsvereisten, kwaliteit en verifieerbaarheid, en synthetiseert vervolgens taken voor verifieerbare vaardigheden. Vóór uitvoering voert SkillsVote een agentische bibliotheekzoekopdracht uit over een gestructureerde vaardigheidsbibliotheek om instructieve vaardigheidscontext bloot te leggen. Na uitvoering ontleedt het trajecten in vaardigheid-gerelateerde deeltaken, kent uitkomsten toe aan vaardigheidsgebruik, agentverkenning, omgeving en resultaatsignalen, en laat alleen succesvolle herbruikbare ontdekkingen toe tot bewijsgestuurde updates. In onze evaluatie verbetert offline evolutie GPT-5.2 op Terminal-Bench 2.0 met tot wel 7,9 procentpunt, terwijl online evolutie SWE-Bench Pro verbetert met tot wel 2,6 procentpunt. Algemeen kunnen beheerste externe vaardigheidsbibliotheken bevroren agenten verbeteren zonder modelupdates, wanneer systemen blootstelling, toekenning en behoud beheersen.

English

Long-horizon LLM agents leave traces that could become reusable experience, but raw trajectories are noisy and hard to govern. We treat Agent Skills as an experience schema that couples executable scripts, with non-executable guidance on procedures. Yet open skill ecosystems contain redundant, uneven, environment-sensitive artifacts, and indiscriminate updates can pollute future context. We present SkillsVote, a lifecycle-governance framework for Agent Skills from collection and recommendation to evolution. SkillsVote profiles a million-scale open-source corpus for environment requirements, quality, and verifiability, then synthesizes tasks for verifiable skills. Before execution, SkillsVote performs agentic library search over structured skill library to expose instructional skill context. After execution, it decomposes trajectories into skill-linked subtasks, attributes outcomes to skill use, agent exploration, environment, and result signals, and admits only successful reusable discoveries to evidence-gated updates. In our evaluation, offline evolution improves GPT-5.2 on Terminal-Bench 2.0 by up to 7.9 pp, while online evolution improves SWE-Bench Pro by up to 2.6 pp. Overall, governed external skill libraries can improve frozen agents without model updates when systems control exposure, credit, and preservation.