SkillGrad: Optimizando las habilidades del agente como el descenso de gradiente

Resumen

Las habilidades de agente proporcionan una forma liviana de adaptar agentes basados en LLM a dominios especializados, almacenando conocimiento procedural reutilizable en archivos estructurados. Sin embargo, ya sea que se descarguen de terceros o se generen por cuenta propia, estas habilidades suelen ser poco fiables, incompletas o desactualizadas. Los métodos existentes de evolución de habilidades a menudo abordan estas deficiencias mediante reflexiones heurísticas sin una formulación explícita de optimización. En este artículo, proponemos SkillGrad, un marco inspirado en el descenso de gradiente para optimizar habilidades de agente. SkillGrad trata el paquete de habilidades como un parámetro estructurado a optimizar de manera similar al descenso de gradiente: las ejecuciones de tareas proporcionan evidencia de pérdida a nivel de trayectoria, luego los diagnósticos automáticos brindan gradientes basados en texto que indican las direcciones de corrección. Para estabilizar la optimización entre iteraciones, un agente de momento acumula patrones de diagnóstico recurrentes en una superposición de memoria persistente. Finalmente, un parcheador basado en LLM ejecuta la actualización de parámetros aplicando ediciones conscientes de capas al paquete de habilidades. Evaluado en SpreadsheetBench Verified y WikiTableQuestions, SkillGrad supera consistentemente a las líneas base de evolución de habilidades basadas en entrenamiento en dos LLMs subyacentes, mejorando la línea base de entrenamiento más fuerte en 6.7 puntos porcentuales en promedio. Los análisis de ablación muestran además que tanto el momento como el diagnóstico contrastivo contribuyen a la calidad final de la habilidad.

English

Agent skills provide a lightweight way to adapt LLM agents to specialized domains by storing reusable procedural knowledge in structured files. However, whether downloaded from third parties or self-generated, these skills are often unreliable, incomplete, or outdated. Existing skill-evolution methods often address these deficiencies through heuristic reflections without an explicit optimization formulation. In this paper, we propose SkillGrad, a gradient-descent-inspired framework for optimizing agent skills. SkillGrad treats the skill package as a structured parameter to optimize in a gradient descent fashion: task executions provide trajectory-level loss evidence, automatic diagnoses then provide text-based gradients that indicate the correction directions. To stabilize optimization across iterations, a momentum agent accumulates recurring diagnostic patterns into a persistent memory overlay. Finally, an LLM-based patcher executes the parameter update by applying layer-aware edits to the skill package. Evaluated on SpreadsheetBench Verified and WikiTableQuestions, SkillGrad consistently outperforms training-based skill evolution baselines across two backbone LLMs, improving over the strongest training-based baseline by 6.7 percentage points on average. Ablations further show that momentum and contrastive diagnosis both contribute to the final skill quality.