ChatPaper.aiChatPaper

SkillGrad: 에이전트 기술을 경사 하강법처럼 최적화

SkillGrad: Optimizing Agent Skills Like Gradient Descent

May 26, 2026
저자: Hanyu Wang, Yifan Lan, Bochuan Cao, Lu Lin, Jinghui Chen
cs.AI

초록

에이전트 스킬은 구조화된 파일에 재사용 가능한 절차적 지식을 저장함으로써 LLM 에이전트를 특수한 도메인에 적응시키는 경량화된 방법을 제공한다. 그러나 제3자로부터 다운로드하거나 자체 생성한 스킬은 종종 신뢰할 수 없거나 불완전하거나 구식이다. 기존의 스킬 진화 방법은 명시적인 최적화 공식 없이 경험적 반성을 통해 이러한 결함을 해결하는 경우가 많다. 본 논문에서는 에이전트 스킬을 최적화하기 위한 경사 하강법에서 영감을 받은 프레임워크인 SkillGrad를 제안한다. SkillGrad는 스킬 패키지를 구조화된 파라미터로 간주하여 경사 하강법 방식으로 최적화한다. 즉, 작업 실행은 궤적 수준의 손실 증거를 제공하고, 자동 진단은 수정 방향을 나타내는 텍스트 기반 그래디언트를 제공한다. 반복 최적화를 안정화하기 위해 모멘텀 에이전트가 반복적인 진단 패턴을 지속적인 메모리 오버레이에 축적한다. 마지막으로 LLM 기반 패처는 스킬 패키지에 레이어 인식 편집을 적용하여 파라미터 업데이트를 실행한다. SpreadsheetBench Verified 및 WikiTableQuestions에서 평가한 결과, SkillGrad는 두 백본 LLM에 걸쳐 학습 기반 스킬 진화 기준선을 일관되게 능가하며, 가장 강력한 학습 기반 기준선 대비 평균 6.7% 포인트 향상되었다. 추가 절제 연구는 모멘텀과 대조 진단이 모두 최종 스킬 품질에 기여함을 보여준다.
English
Agent skills provide a lightweight way to adapt LLM agents to specialized domains by storing reusable procedural knowledge in structured files. However, whether downloaded from third parties or self-generated, these skills are often unreliable, incomplete, or outdated. Existing skill-evolution methods often address these deficiencies through heuristic reflections without an explicit optimization formulation. In this paper, we propose SkillGrad, a gradient-descent-inspired framework for optimizing agent skills. SkillGrad treats the skill package as a structured parameter to optimize in a gradient descent fashion: task executions provide trajectory-level loss evidence, automatic diagnoses then provide text-based gradients that indicate the correction directions. To stabilize optimization across iterations, a momentum agent accumulates recurring diagnostic patterns into a persistent memory overlay. Finally, an LLM-based patcher executes the parameter update by applying layer-aware edits to the skill package. Evaluated on SpreadsheetBench Verified and WikiTableQuestions, SkillGrad consistently outperforms training-based skill evolution baselines across two backbone LLMs, improving over the strongest training-based baseline by 6.7 percentage points on average. Ablations further show that momentum and contrastive diagnosis both contribute to the final skill quality.