SkillGrad: Optimierung von Agentenfertigkeiten wie beim Gradientenabstieg

Zusammenfassung

Agent-Fähigkeiten bieten eine leichte Methode, um LLM-Agenten an spezialisierte Domänen anzupassen, indem wiederverwendbares prozedurales Wissen in strukturierten Dateien gespeichert wird. Ob von Drittanbietern heruntergeladen oder selbst erstellt, sind diese Fähigkeiten jedoch oft unzuverlässig, unvollständig oder veraltet. Bestehende Methoden zur Evolution von Fähigkeiten beheben diese Mängel häufig durch heuristische Reflexionen ohne explizite Optimierungsformulierung. In dieser Arbeit schlagen wir SkillGrad vor, ein vom Gradientenabstieg inspiriertes Framework zur Optimierung von Agent-Fähigkeiten. SkillGrad behandelt das Fähigkeitspaket als strukturierten Parameter, der im Sinne eines Gradientenabstiegs optimiert wird: Aufgabenausführungen liefern Verlustnachweise auf Trajektorienebene, automatische Diagnosen liefern daraufhin textbasierte Gradienten, die die Korrekturrichtungen angeben. Zur Stabilisierung der Optimierung über Iterationen hinweg akkumuliert ein Momentum-Agent wiederkehrende Diagnosemuster in einem persistenten Speicher-Overlay. Schließlich führt ein LLM-basierter Patcher die Parameteraktualisierung durch, indem er schichtbewusste Änderungen auf das Fähigkeitspaket anwendet. Evaluiert auf SpreadsheetBench Verified und WikiTableQuestions übertrifft SkillGrad konsequent trainingsbasierte Baseline-Verfahren zur Fähigkeitsevolution über zwei zugrunde liegende LLMs hinweg und verbessert die stärkste trainingsbasierte Baseline im Durchschnitt um 6,7 Prozentpunkte. Ablationen zeigen zudem, dass sowohl Momentum als auch kontrastive Diagnose zur endgültigen Fähigkeitsqualität beitragen.

English

Agent skills provide a lightweight way to adapt LLM agents to specialized domains by storing reusable procedural knowledge in structured files. However, whether downloaded from third parties or self-generated, these skills are often unreliable, incomplete, or outdated. Existing skill-evolution methods often address these deficiencies through heuristic reflections without an explicit optimization formulation. In this paper, we propose SkillGrad, a gradient-descent-inspired framework for optimizing agent skills. SkillGrad treats the skill package as a structured parameter to optimize in a gradient descent fashion: task executions provide trajectory-level loss evidence, automatic diagnoses then provide text-based gradients that indicate the correction directions. To stabilize optimization across iterations, a momentum agent accumulates recurring diagnostic patterns into a persistent memory overlay. Finally, an LLM-based patcher executes the parameter update by applying layer-aware edits to the skill package. Evaluated on SpreadsheetBench Verified and WikiTableQuestions, SkillGrad consistently outperforms training-based skill evolution baselines across two backbone LLMs, improving over the strongest training-based baseline by 6.7 percentage points on average. Ablations further show that momentum and contrastive diagnosis both contribute to the final skill quality.