SkillGrad: Otimizando Habilidades de Agentes como Descida de Gradiente

Resumo

As habilidades de agente fornecem uma forma leve de adaptar agentes LLM a domínios especializados, armazenando conhecimento procedural reutilizável em arquivos estruturados. No entanto, sejam baixadas de terceiros ou auto-geradas, essas habilidades são frequentemente não confiáveis, incompletas ou desatualizadas. Métodos existentes de evolução de habilidades frequentemente abordam essas deficiências por meio de reflexões heurísticas, sem uma formulação explícita de otimização. Neste artigo, propomos SkillGrad, uma estrutura inspirada em gradiente descendente para otimizar habilidades de agente. O SkillGrad trata o pacote de habilidades como um parâmetro estruturado a ser otimizado à maneira do gradiente descendente: execuções de tarefas fornecem evidência de perda em nível de trajetória, e diagnósticos automáticos então oferecem gradientes baseados em texto que indicam as direções de correção. Para estabilizar a otimização ao longo das iterações, um agente de momentum acumula padrões recorrentes de diagnóstico em uma sobreposição de memória persistente. Por fim, um patcher baseado em LLM executa a atualização de parâmetros aplicando edições cientes de camadas ao pacote de habilidades. Avaliado no SpreadsheetBench Verified e no WikiTableQuestions, o SkillGrad supera consistentemente as linhas de base de evolução de habilidades baseadas em treinamento em dois LLMs base, melhorando a linha de base baseada em treinamento mais forte em 6,7 pontos percentuais em média. Ablações mostram ainda que tanto o momentum quanto o diagnóstico contrastivo contribuem para a qualidade final da habilidade.

English

Agent skills provide a lightweight way to adapt LLM agents to specialized domains by storing reusable procedural knowledge in structured files. However, whether downloaded from third parties or self-generated, these skills are often unreliable, incomplete, or outdated. Existing skill-evolution methods often address these deficiencies through heuristic reflections without an explicit optimization formulation. In this paper, we propose SkillGrad, a gradient-descent-inspired framework for optimizing agent skills. SkillGrad treats the skill package as a structured parameter to optimize in a gradient descent fashion: task executions provide trajectory-level loss evidence, automatic diagnoses then provide text-based gradients that indicate the correction directions. To stabilize optimization across iterations, a momentum agent accumulates recurring diagnostic patterns into a persistent memory overlay. Finally, an LLM-based patcher executes the parameter update by applying layer-aware edits to the skill package. Evaluated on SpreadsheetBench Verified and WikiTableQuestions, SkillGrad consistently outperforms training-based skill evolution baselines across two backbone LLMs, improving over the strongest training-based baseline by 6.7 percentage points on average. Ablations further show that momentum and contrastive diagnosis both contribute to the final skill quality.