SkillGrad: 勾配降下法のようにエージェントスキルを最適化する
SkillGrad: Optimizing Agent Skills Like Gradient Descent
May 26, 2026
著者: Hanyu Wang, Yifan Lan, Bochuan Cao, Lu Lin, Jinghui Chen
cs.AI
要旨
エージェントスキルは、再利用可能な手続き的知識を構造化されたファイルに保存することで、LLMエージェントを専門領域に適応させる軽量な手法を提供する。しかし、第三者が提供するものや自己生成されたものであっても、これらのスキルは信頼性が不十分であったり、不完全であったり、古くなっていることが多い。既存のスキル進化手法は、明示的な最適化定式化なしにヒューリスティックな省察を通じてこれらの欠点に対処することが多い。本稿では、エージェントスキルを最適化するための勾配降下に着想を得たフレームワーク、SkillGradを提案する。SkillGradはスキルパッケージを一種の構造化パラメータとみなし、勾配降下法に類似した方法で最適化する。すなわち、タスク実行が軌跡レベルの損失証拠を提供し、自動診断が修正方向を示すテキストベースの勾配を生成する。反復をまたぐ最適化を安定させるために、モーメンタムエージェントが繰り返し現れる診断パターンを永続的なメモリオーバーレイに蓄積する。最後に、LLMベースのパッチャーがスキルパッケージに対してレイヤーを考慮した編集を適用し、パラメータ更新を実行する。SpreadsheetBench VerifiedおよびWikiTableQuestionsで評価したところ、SkillGradは2つのバックボーンLLMにわたって訓練ベースのスキル進化ベースラインを一貫して上回り、最も強力な訓練ベースのベースラインと比較して平均6.7パーセントポイントの改善を示した。さらにアブレーション研究により、モーメンタムと対比的診断の両方が最終的なスキル品質に寄与することが示された。
English
Agent skills provide a lightweight way to adapt LLM agents to specialized domains by storing reusable procedural knowledge in structured files. However, whether downloaded from third parties or self-generated, these skills are often unreliable, incomplete, or outdated. Existing skill-evolution methods often address these deficiencies through heuristic reflections without an explicit optimization formulation. In this paper, we propose SkillGrad, a gradient-descent-inspired framework for optimizing agent skills. SkillGrad treats the skill package as a structured parameter to optimize in a gradient descent fashion: task executions provide trajectory-level loss evidence, automatic diagnoses then provide text-based gradients that indicate the correction directions. To stabilize optimization across iterations, a momentum agent accumulates recurring diagnostic patterns into a persistent memory overlay. Finally, an LLM-based patcher executes the parameter update by applying layer-aware edits to the skill package. Evaluated on SpreadsheetBench Verified and WikiTableQuestions, SkillGrad consistently outperforms training-based skill evolution baselines across two backbone LLMs, improving over the strongest training-based baseline by 6.7 percentage points on average. Ablations further show that momentum and contrastive diagnosis both contribute to the final skill quality.