SkillsVote: Governança do Ciclo de Vida de Habilidades de Agentes, da Coleta, Recomendação à Evolução

Resumo

Agentes LLM de longo horizonte deixam rastros que poderiam se tornar experiência reutilizável, mas trajetórias brutas são ruidosas e difíceis de governar. Tratamos Habilidades de Agente como um esquema de experiência que acopla scripts executáveis a orientações não executáveis sobre procedimentos. No entanto, ecossistemas de habilidades abertos contêm artefatos redundantes, desiguais e sensíveis ao ambiente, e atualizações indiscriminadas podem poluir o contexto futuro. Apresentamos SkillsVote, uma estrutura de governança de ciclo de vida para Habilidades de Agente, desde a coleta e recomendação até a evolução. SkillsVote analisa um corpus de código aberto em escala de milhões para requisitos de ambiente, qualidade e verificabilidade, e então sintetiza tarefas para habilidades verificáveis. Antes da execução, SkillsVote realiza uma busca agentiva em uma biblioteca de habilidades estruturada para expor contexto instrucional de habilidades. Após a execução, ele decompõe trajetórias em subtarefas vinculadas a habilidades, atribui resultados ao uso de habilidades, exploração do agente, ambiente e sinais de resultado, e admite apenas descobertas reutilizáveis bem-sucedidas em atualizações baseadas em evidências. Em nossa avaliação, a evolução offline melhora o GPT-5.2 no Terminal-Bench 2.0 em até 7,9 pp, enquanto a evolução online melhora o SWE-Bench Pro em até 2,6 pp. No geral, bibliotecas de habilidades externas governadas podem melhorar agentes congelados sem atualizações de modelo quando os sistemas controlam exposição, crédito e preservação.

English

Long-horizon LLM agents leave traces that could become reusable experience, but raw trajectories are noisy and hard to govern. We treat Agent Skills as an experience schema that couples executable scripts, with non-executable guidance on procedures. Yet open skill ecosystems contain redundant, uneven, environment-sensitive artifacts, and indiscriminate updates can pollute future context. We present SkillsVote, a lifecycle-governance framework for Agent Skills from collection and recommendation to evolution. SkillsVote profiles a million-scale open-source corpus for environment requirements, quality, and verifiability, then synthesizes tasks for verifiable skills. Before execution, SkillsVote performs agentic library search over structured skill library to expose instructional skill context. After execution, it decomposes trajectories into skill-linked subtasks, attributes outcomes to skill use, agent exploration, environment, and result signals, and admits only successful reusable discoveries to evidence-gated updates. In our evaluation, offline evolution improves GPT-5.2 on Terminal-Bench 2.0 by up to 7.9 pp, while online evolution improves SWE-Bench Pro by up to 2.6 pp. Overall, governed external skill libraries can improve frozen agents without model updates when systems control exposure, credit, and preservation.