SkillOpt: Estrategia Ejecutiva para Habilidades de Agente Autoevolutivo

Resumen

Las habilidades de los agentes hoy en día son artesanales, generadas de una sola vez, o evolucionadas mediante auto-revisión débilmente controlada; ninguna de ellas se comporta como un optimizador de aprendizaje profundo para la habilidad, y ninguna mejora de manera fiable su punto de partida bajo retroalimentación. Sostenemos que la habilidad debería ser entrenada como el estado externo de un agente congelado, con la misma disciplina que hace reproducible la optimización del espacio de pesos. Hasta donde sabemos, SkillOpt es el primer optimizador sistemático y controlable en el espacio textual para habilidades de agentes: un modelo optimizador independiente convierte simulaciones puntuadas en ediciones acotadas de añadir/eliminar/reemplazar sobre un único documento de habilidad, y una edición se acepta solo cuando mejora estrictamente una puntuación de validación reservada. Un presupuesto de tasa de aprendizaje textual, un búfer de ediciones rechazadas y una actualización lenta/meta por época hacen que el entrenamiento de la habilidad sea estable, sin agregar llamadas al modelo en tiempo de inferencia durante el despliegue. En seis benchmarks, siete modelos objetivo y tres plataformas de ejecución (chat directo, Codex, Claude Code), SkillOpt es el mejor o empata en las 52 celdas evaluadas (modelo, benchmark, plataforma) y supera a todos los competidores por celda entre habilidades humanas, de LLM de una sola vez, Trace2Skill, TextGrad, GEPA y EvoSkill. En GPT-5.5, eleva la precisión media sin habilidad en +23.5 puntos en chat directo, en +24.8 dentro del bucle agentivo de Codex, y en +19.1 dentro de Claude Code. Los experimentos de transferencia muestran además que los artefactos de habilidad optimizados conservan valor al trasladarse entre escalas de modelo, entre los entornos de ejecución de Codex y Claude Code, y hacia un benchmark matemático cercano sin necesidad de optimización adicional.

English

Agent skills today are hand-crafted, generated one-shot, or evolved through loosely controlled self-revision, none of which behaves like a deep-learning optimizer for the skill, and none of which reliably improves over its starting point under feedback. We argue the skill should instead be trained as the external state of a frozen agent, with the same discipline that makes weight-space optimization reproducible. SkillOpt is, to our knowledge, the first systematic controllable text-space optimizer for agent skills: a separate optimizer model turns scored rollouts into bounded add/delete/replace edits on a single skill document, and an edit is accepted only when it strictly improves a held-out validation score. A textual learning-rate budget, rejected-edit buffer, and epoch-wise slow/meta update make skill training stable while adding zero inference-time model calls at deployment. Across six benchmarks, seven target models, and three execution harnesses (direct chat, Codex, Claude Code), SkillOpt is best or tied on all 52 evaluated (model, benchmark, harness) cells and beats every per-cell competitor among human, one-shot LLM, Trace2Skill, TextGrad, GEPA, and EvoSkill skills. On GPT-5.5 it lifts the average no-skill accuracy by +23.5 points in direct chat, by +24.8 inside the Codex agentic loop, and by +19.1 inside Claude Code. Transfer experiments further show that optimized skill artifacts retain value when moved across model scales, between Codex and Claude Code execution environments, and to a nearby math benchmark without further optimization.