SkillGrad: Agentvaardigheden optimaliseren als gradiëntafdaling

Samenvatting

Agentvaardigheden bieden een lichtgewicht manier om LLM-agenten aan te passen aan gespecialiseerde domeinen door herbruikbare procedurele kennis op te slaan in gestructureerde bestanden. Of deze vaardigheden nu van derden worden gedownload of zelf worden gegenereerd, ze zijn vaak onbetrouwbaar, onvolledig of verouderd. Bestaande vaardigheidsevolutiemethoden pakken deze tekortkomingen vaak aan door heuristische reflecties zonder een expliciete optimalisatieformulering. In dit artikel introduceren we SkillGrad, een op gradiëntafdaling geïnspireerd raamwerk voor het optimaliseren van agentvaardigheden. SkillGrad behandelt het vaardigheidspakket als een gestructureerde parameter die geoptimaliseerd wordt op een gradiëntafdalingsmanier: taakuitvoeringen leveren trajectniveauverliesbewijs, waarna automatische diagnoses tekstgebaseerde gradiënten opleveren die de correctierichtingen aangeven. Om de optimalisatie over iteraties heen te stabiliseren, accumuleert een momentum-agent terugkerende diagnosepatronen in een aanhoudende geheugenoverlay. Ten slotte voert een op LLM gebaseerde patcher de parameterupdate uit door laagbewuste bewerkingen toe te passen op het vaardigheidspakket. Geëvalueerd op SpreadsheetBench Verified en WikiTableQuestions presteert SkillGrad consistent beter dan op training gebaseerde vaardigheidsevolutiebaselines over twee backbone-LLM's heen, met een gemiddelde verbetering van 6,7 procentpunt ten opzichte van de sterkste op training gebaseerde baseline. Ablatiestudies tonen verder aan dat zowel momentum als contrastieve diagnose bijdragen aan de uiteindelijke vaardigheidskwaliteit.

English

Agent skills provide a lightweight way to adapt LLM agents to specialized domains by storing reusable procedural knowledge in structured files. However, whether downloaded from third parties or self-generated, these skills are often unreliable, incomplete, or outdated. Existing skill-evolution methods often address these deficiencies through heuristic reflections without an explicit optimization formulation. In this paper, we propose SkillGrad, a gradient-descent-inspired framework for optimizing agent skills. SkillGrad treats the skill package as a structured parameter to optimize in a gradient descent fashion: task executions provide trajectory-level loss evidence, automatic diagnoses then provide text-based gradients that indicate the correction directions. To stabilize optimization across iterations, a momentum agent accumulates recurring diagnostic patterns into a persistent memory overlay. Finally, an LLM-based patcher executes the parameter update by applying layer-aware edits to the skill package. Evaluated on SpreadsheetBench Verified and WikiTableQuestions, SkillGrad consistently outperforms training-based skill evolution baselines across two backbone LLMs, improving over the strongest training-based baseline by 6.7 percentage points on average. Ablations further show that momentum and contrastive diagnosis both contribute to the final skill quality.