기술 그래프: 대규모 에이전트 기술을 위한 의존성 인식 구조적 검색
Graph of Skills: Dependency-Aware Structural Retrieval for Massive Agent Skills
April 7, 2026
저자: Dawei Li, Zongxia Li, Hongyang Du, Xiyang Wu, Shihang Gui, Yongbei Kuang, Lichao Sun
cs.AI
초록
스킬 활용은 현대 에이전트 시스템의 핵심 구성 요소가 되었으며, 복잡한 작업 수행 능력을 크게 향상시킬 수 있습니다. 에이전트가 수많은 개인 애플리케이션, 웹 브라우저 및 기타 환경 인터페이스를 모니터링하고 상호작용해야 하는 실제 환경에서는 스킬 라이브러리가 수천 개의 재사용 가능한 스킬로 확장될 수 있습니다. 더 큰 스킬 집합으로 확장됨에 따라 두 가지 주요 과제가 발생합니다. 첫째, 전체 스킬 집합을 로드하면 컨텍스트 창이 포화되어 토큰 비용, 환각(hallucination) 및 지연 시간이 증가합니다.
본 논문에서는 대규모 스킬 라이브러리를 위한 추론 시점 구조적 검색 계층인 GoS(Graph of Skills)를 제안합니다. GoS는 스킬 패키지로부터 오프라인에서 실행 가능한 스킬 그래프를 구성한 후, 추론 시점에 하이브리드 의미-어휘 시딩(seeding), 역가중 개인화 페이지랭크, 컨텍스트-버짓 기반 하이드레이션(hydration)을 통해 종속성을 고려한 경계 지어진(bounded) 스킬 번들을 검색합니다. SkillsBench와 ALFWorld에서 GoS는 기본적인 전체 스킬 로딩 베이스라인 대비 평균 보상을 43.6% 향상시키면서 입력 토큰을 37.8% 줄였으며, Claude Sonnet, GPT-5.2 Codex, MiniMax라는 세 가지 모델 패밀리에서 일반화 성능을 입증했습니다. 200개에서 2,000개에 이르는 스킬 라이브러리에서 수행한 추가적인 애블레이션 연구를 통해 GoS가 보상, 토큰 효율성, 실행 시간의 균형 측면에서 기본 스킬 로딩과 단순 벡터 검색 모두를 지속적으로 능가함을 추가로 입증했습니다.
English
Skill usage has become a core component of modern agent systems and can substantially improve agents' ability to complete complex tasks. In real-world settings, where agents must monitor and interact with numerous personal applications, web browsers, and other environment interfaces, skill libraries can scale to thousands of reusable skills. Scaling to larger skill sets introduces two key challenges. First, loading the full skill set saturates the context window, driving up token costs, hallucination, and latency.
In this paper, we present Graph of Skills (GoS), an inference-time structural retrieval layer for large skill libraries. GoS constructs an executable skill graph offline from skill packages, then at inference time retrieves a bounded, dependency-aware skill bundle through hybrid semantic-lexical seeding, reverse-weighted Personalized PageRank, and context-budgeted hydration. On SkillsBench and ALFWorld, GoS improves average reward by 43.6% over the vanilla full skill-loading baseline while reducing input tokens by 37.8%, and generalizes across three model families: Claude Sonnet, GPT-5.2 Codex, and MiniMax. Additional ablation studies across skill libraries ranging from 200 to 2,000 skills further demonstrate that GoS consistently outperforms both vanilla skills loading and simple vector retrieval in balancing reward, token efficiency, and runtime.