SkillGrad : Optimiser les compétences des agents comme la descente de gradient

Résumé

Les compétences d’agent offrent un moyen léger d’adapter les agents basés sur des LLM à des domaines spécialisés en stockant des connaissances procédurales réutilisables dans des fichiers structurés. Cependant, qu’elles soient téléchargées auprès de tiers ou auto-générées, ces compétences sont souvent peu fiables, incomplètes ou obsolètes. Les méthodes existantes d’évolution de compétences pallient souvent ces lacunes par des réflexions heuristiques, sans formulation explicite d’optimisation. Dans cet article, nous proposons SkillGrad, un cadre inspiré de la descente de gradient pour optimiser les compétences d’agent. SkillGrad traite le package de compétences comme un paramètre structuré à optimiser selon une approche de descente de gradient : les exécutions de tâches fournissent des preuves de perte au niveau de la trajectoire, puis des diagnostics automatiques fournissent des gradients textuels indiquant les directions de correction. Pour stabiliser l’optimisation à travers les itérations, un agent momentum accumule les schémas récurrents de diagnostic dans une mémoire persistante de superposition. Enfin, un module de correction basé sur un LLM exécute la mise à jour des paramètres en appliquant des modifications tenant compte des couches au package de compétences. Évalué sur SpreadsheetBench Verified et WikiTableQuestions, SkillGrad surpasse systématiquement les méthodes de référence basées sur l’apprentissage pour l’évolution de compétences, avec deux LLM de base différents, améliorant de 6,7 points de pourcentage en moyenne la meilleure méthode de référence fondée sur l’apprentissage. Des ablations montrent en outre que le momentum et le diagnostic contrastif contribuent tous deux à la qualité finale des compétences.

English

Agent skills provide a lightweight way to adapt LLM agents to specialized domains by storing reusable procedural knowledge in structured files. However, whether downloaded from third parties or self-generated, these skills are often unreliable, incomplete, or outdated. Existing skill-evolution methods often address these deficiencies through heuristic reflections without an explicit optimization formulation. In this paper, we propose SkillGrad, a gradient-descent-inspired framework for optimizing agent skills. SkillGrad treats the skill package as a structured parameter to optimize in a gradient descent fashion: task executions provide trajectory-level loss evidence, automatic diagnoses then provide text-based gradients that indicate the correction directions. To stabilize optimization across iterations, a momentum agent accumulates recurring diagnostic patterns into a persistent memory overlay. Finally, an LLM-based patcher executes the parameter update by applying layer-aware edits to the skill package. Evaluated on SpreadsheetBench Verified and WikiTableQuestions, SkillGrad consistently outperforms training-based skill evolution baselines across two backbone LLMs, improving over the strongest training-based baseline by 6.7 percentage points on average. Ablations further show that momentum and contrastive diagnosis both contribute to the final skill quality.