SkillsVote: Управление жизненным циклом навыков агентов от сбора и рекомендации до эволюции

Аннотация

Долгосрочные агенты на основе LLM оставляют следы, которые могли бы стать повторно используемым опытом, однако сырые траектории зашумлены и трудно поддаются управлению. Мы рассматриваем навыки агентов как схему опыта, объединяющую исполняемые сценарии с неисполняемыми инструкциями по процедурам. Тем не менее открытые экосистемы навыков содержат избыточные, неравномерные и чувствительные к среде артефакты, а неразборчивые обновления могут загрязнять будущий контекст. Мы представляем SkillsVote — фреймворк управления жизненным циклом навыков агентов, от сбора и рекомендации до эволюции. SkillsVote профилирует масштабный открытый корпус на предмет требований среды, качества и проверяемости, затем синтезирует задачи для проверяемых навыков. Перед выполнением SkillsVote выполняет агентский поиск по структурированной библиотеке навыков для раскрытия инструктивного контекста навыков. После выполнения он разбивает траектории на связанные с навыками подзадачи, приписывает результаты использованию навыков, исследованию агента, среде и сигналам результатов и допускает к обновлениям, ограниченным доказательствами, только успешные повторно используемые находки. В нашей оценке офлайн-эволюция улучшает GPT-5.2 на Terminal-Bench 2.0 до 7.9 процентных пункта, в то время как онлайн-эволюция улучшает SWE-Bench Pro до 2.6 процентных пункта. В целом, управляемые внешние библиотеки навыков могут улучшать замороженных агентов без обновлений модели, когда системы контролируют воздействие, признание и сохранность.

English

Long-horizon LLM agents leave traces that could become reusable experience, but raw trajectories are noisy and hard to govern. We treat Agent Skills as an experience schema that couples executable scripts, with non-executable guidance on procedures. Yet open skill ecosystems contain redundant, uneven, environment-sensitive artifacts, and indiscriminate updates can pollute future context. We present SkillsVote, a lifecycle-governance framework for Agent Skills from collection and recommendation to evolution. SkillsVote profiles a million-scale open-source corpus for environment requirements, quality, and verifiability, then synthesizes tasks for verifiable skills. Before execution, SkillsVote performs agentic library search over structured skill library to expose instructional skill context. After execution, it decomposes trajectories into skill-linked subtasks, attributes outcomes to skill use, agent exploration, environment, and result signals, and admits only successful reusable discoveries to evidence-gated updates. In our evaluation, offline evolution improves GPT-5.2 on Terminal-Bench 2.0 by up to 7.9 pp, while online evolution improves SWE-Bench Pro by up to 2.6 pp. Overall, governed external skill libraries can improve frozen agents without model updates when systems control exposure, credit, and preservation.