SkillsVote: Lebenszyklus-Governance von Agentenfähigkeiten – von der Sammlung über die Empfehlung bis zur Evolution

Zusammenfassung

LLM-Agenten mit langem Zeithorizont hinterlassen Spuren, die zu wiederverwendbarer Erfahrung werden könnten, aber rohe Trajektorien sind verrauscht und schwer zu handhaben. Wir behandeln Agenten-Fähigkeiten als ein Erfahrungsschema, das ausführbare Skripte mit nicht ausführbaren Anleitungen zu Verfahrensabläufen koppelt. Doch offene Fähigkeitsökosysteme enthalten redundante, ungleichmäßige, umgebungsempfindliche Artefakte, und wahllose Aktualisierungen können den zukünftigen Kontext verunreinigen. Wir stellen SkillsVote vor, ein Lebenszyklus-Governance-Framework für Agenten-Fähigkeiten von der Sammlung und Empfehlung bis zur Evolution. SkillsVote profiliert einen millionenschweren Open-Source-Korpus hinsichtlich Umgebungsanforderungen, Qualität und Überprüfbarkeit und synthetisiert dann Aufgaben für überprüfbare Fähigkeiten. Vor der Ausführung führt SkillsVote eine agentische Bibliothekssuche über die strukturierte Fähigkeitsbibliothek durch, um instruktiven Fähigkeitskontext bereitzustellen. Nach der Ausführung zerlegt es Trajektorien in fähigkeitsverknüpfte Teilaufgaben, ordnet Ergebnisse dem Einsatz von Fähigkeiten, der Agentenexploration, der Umgebung und Ergebnissignalen zu und lässt nur erfolgreiche wiederverwendbare Entdeckungen für evidenzgesteuerte Aktualisierungen zu. In unserer Auswertung verbessert die Offline-Evolution GPT-5.2 auf Terminal-Bench 2.0 um bis zu 7,9 Prozentpunkte, während die Online-Evolution SWE-Bench Pro um bis zu 2,6 Prozentpunkte verbessert. Insgesamt können gesteuerte externe Fähigkeitsbibliotheken eingefrorene Agenten ohne Modellaktualisierungen verbessern, wenn Systeme die Präsentation, die Anerkennung und die Erhaltung kontrollieren.

English

Long-horizon LLM agents leave traces that could become reusable experience, but raw trajectories are noisy and hard to govern. We treat Agent Skills as an experience schema that couples executable scripts, with non-executable guidance on procedures. Yet open skill ecosystems contain redundant, uneven, environment-sensitive artifacts, and indiscriminate updates can pollute future context. We present SkillsVote, a lifecycle-governance framework for Agent Skills from collection and recommendation to evolution. SkillsVote profiles a million-scale open-source corpus for environment requirements, quality, and verifiability, then synthesizes tasks for verifiable skills. Before execution, SkillsVote performs agentic library search over structured skill library to expose instructional skill context. After execution, it decomposes trajectories into skill-linked subtasks, attributes outcomes to skill use, agent exploration, environment, and result signals, and admits only successful reusable discoveries to evidence-gated updates. In our evaluation, offline evolution improves GPT-5.2 on Terminal-Bench 2.0 by up to 7.9 pp, while online evolution improves SWE-Bench Pro by up to 2.6 pp. Overall, governed external skill libraries can improve frozen agents without model updates when systems control exposure, credit, and preservation.