SkillGrad: Оптимизация навыков агента подобно градиентному спуску

Аннотация

Навыки агентов предоставляют легковесный способ адаптации LLM-агентов к специализированным доменам путем хранения повторно используемых процедурных знаний в структурированных файлах. Однако, независимо от того, загружены ли такие навыки от третьих лиц или сгенерированы самостоятельно, они часто оказываются ненадежными, неполными или устаревшими. Существующие методы эволюции навыков обычно устраняют эти недостатки с помощью эвристических рефлексий без явной формулировки оптимизации. В данной работе мы предлагаем SkillGrad — фреймворк, вдохновленный градиентным спуском, для оптимизации навыков агентов. SkillGrad рассматривает пакет навыков как структурированный параметр, оптимизируемый в стиле градиентного спуска: выполнение задач предоставляет потери на уровне траекторий, затем автоматическая диагностика генерирует текстовые градиенты, указывающие направления коррекции. Для стабилизации оптимизации между итерациями агент с моментумом накапливает повторяющиеся диагностические паттерны в персистентном наложении памяти. Наконец, патчер на основе LLM выполняет обновление параметра, применяя послойные правки к пакету навыков. В оценке на SpreadsheetBench Verified и WikiTableQuestions SkillGrad последовательно превосходит baseline-методы эволюции навыков, основанные на обучении, на двух базовых LLM, улучшая сильнейший baseline, основанный на обучении, в среднем на 6,7 процентных пункта. Абляционные эксперименты дополнительно показывают, что и механизм моментума, и контрастная диагностика вносят вклад в итоговое качество навыков.

English

Agent skills provide a lightweight way to adapt LLM agents to specialized domains by storing reusable procedural knowledge in structured files. However, whether downloaded from third parties or self-generated, these skills are often unreliable, incomplete, or outdated. Existing skill-evolution methods often address these deficiencies through heuristic reflections without an explicit optimization formulation. In this paper, we propose SkillGrad, a gradient-descent-inspired framework for optimizing agent skills. SkillGrad treats the skill package as a structured parameter to optimize in a gradient descent fashion: task executions provide trajectory-level loss evidence, automatic diagnoses then provide text-based gradients that indicate the correction directions. To stabilize optimization across iterations, a momentum agent accumulates recurring diagnostic patterns into a persistent memory overlay. Finally, an LLM-based patcher executes the parameter update by applying layer-aware edits to the skill package. Evaluated on SpreadsheetBench Verified and WikiTableQuestions, SkillGrad consistently outperforms training-based skill evolution baselines across two backbone LLMs, improving over the strongest training-based baseline by 6.7 percentage points on average. Ablations further show that momentum and contrastive diagnosis both contribute to the final skill quality.