Graph of Skills: Abhängigkeitsbewusste strukturelle Suche für massive Agenten-Fähigkeiten
Graph of Skills: Dependency-Aware Structural Retrieval for Massive Agent Skills
April 7, 2026
Autoren: Dawei Li, Zongxia Li, Hongyang Du, Xiyang Wu, Shihang Gui, Yongbei Kuang, Lichao Sun
cs.AI
Zusammenfassung
Die Nutzung von Fähigkeiten ist zu einer Kernkomponente moderner Agentensysteme geworden und kann die Fähigkeit von Agenten, komplexe Aufgaben zu bewältigen, erheblich verbessern. In realen Umgebungen, in denen Agenten zahlreiche persönliche Anwendungen, Webbrowser und andere Schnittstellen überwachen und mit ihnen interagieren müssen, können Fähigkeitsbibliotheken auf Tausende von wiederverwendbaren Fähigkeiten skaliert werden. Die Skalierung auf größere Fähigkeitsbibliotheken bringt jedoch zwei Hauptherausforderungen mit sich. Erstens führt das Laden des gesamten Fähigkeitssatzes zu einer Sättigung des Kontextfensters, was Token-Kosten, Halluzinationen und Latenzzeiten erhöht.
In diesem Artikel stellen wir Graph of Skills (GoS) vor, eine Inferenzzeit-Struktur-Retrieval-Ebene für große Fähigkeitsbibliotheken. GoS konstruiert offline einen ausführbaren Fähigkeitsgraphen aus Fähigkeitspaketen und ruft zur Inferenzzeit ein begrenztes, abhängigkeitsbewusstes Fähigkeitsbündel durch hybride semantisch-lexikalische Initialisierung, reverse-gewichteten Personalisierten PageRank und kontextbudgetierte Hydratation ab. Auf SkillsBench und ALFWorld verbessert GoS die durchschnittliche Belohnung um 43,6 % gegenüber der einfachen Baseline mit vollständigem Fähigkeits-Laden und reduziert gleichzeitig die Eingabe-Tokens um 37,8 %. Die Methode generalisiert über drei Modellfamilien: Claude Sonnet, GPT-5.2 Codex und MiniMax. Zusätzliche Ablationsstudien über Fähigkeitsbibliotheken mit 200 bis 2.000 Fähigkeiten zeigen weiterhin, dass GoS sowohl dem einfachen Laden aller Fähigkeiten als auch einem einfachen Vektor-Retrieval konsistent darin überlegen ist, Belohnung, Token-Effizienz und Laufzeit in Balance zu halten.
English
Skill usage has become a core component of modern agent systems and can substantially improve agents' ability to complete complex tasks. In real-world settings, where agents must monitor and interact with numerous personal applications, web browsers, and other environment interfaces, skill libraries can scale to thousands of reusable skills. Scaling to larger skill sets introduces two key challenges. First, loading the full skill set saturates the context window, driving up token costs, hallucination, and latency.
In this paper, we present Graph of Skills (GoS), an inference-time structural retrieval layer for large skill libraries. GoS constructs an executable skill graph offline from skill packages, then at inference time retrieves a bounded, dependency-aware skill bundle through hybrid semantic-lexical seeding, reverse-weighted Personalized PageRank, and context-budgeted hydration. On SkillsBench and ALFWorld, GoS improves average reward by 43.6% over the vanilla full skill-loading baseline while reducing input tokens by 37.8%, and generalizes across three model families: Claude Sonnet, GPT-5.2 Codex, and MiniMax. Additional ablation studies across skill libraries ranging from 200 to 2,000 skills further demonstrate that GoS consistently outperforms both vanilla skills loading and simple vector retrieval in balancing reward, token efficiency, and runtime.