SkillOpt: Estratégia Executiva para Habilidades de Agentes Auto-Evolutivos

Resumo

Atualmente, as habilidades de agentes são criadas artesanalmente, geradas em uma única tentativa ou evoluídas por meio de autorrevisão vagamente controlada — nenhuma dessas abordagens se comporta como um otimizador de aprendizado profundo para a habilidade, e nenhuma delas melhora de forma confiável seu ponto de partida sob realimentação. Defendemos que a habilidade deveria, em vez disso, ser treinada como um estado externo de um agente congelado, com a mesma disciplina que torna a otimização por pesos reprodutível. O SkillOpt é, até onde sabemos, o primeiro otimizador sistemático e controlável para habilidades de agentes no espaço textual: um modelo otimizador separado transforma execuções em rolagem (rollouts) pontuadas em edições limitadas de adicionar/excluir/substituir em um único documento de habilidade, e uma edição só é aceita quando melhora estritamente uma pontuação de validação separada (held-out). Um orçamento textual de taxa de aprendizado, um buffer de edições rejeitadas e uma atualização lenta/meta por época tornam o treinamento da habilidade estável, sem adicionar nenhuma chamada de modelo em tempo de inferência durante a implantação. Em seis referências (benchmarks), sete modelos-alvo e três ambientes de execução (chat direto, Codex, Claude Code), o SkillOpt obteve o melhor resultado ou empatou em todas as 52 células (modelo, referência, ambiente) avaliadas e superou todos os competidores por célula entre habilidades humanas, de LLM de única tentativa, Trace2Skill, TextGrad, GEPA e EvoSkill. No GPT-5.5, ele eleva a acurácia média sem habilidade em +23,5 pontos no chat direto, em +24,8 dentro do loop agentivo do Codex e em +19,1 dentro do Claude Code. Experimentos de transferência mostram ainda que os artefatos de habilidade otimizados mantêm valor quando movidos entre escalas de modelo, entre os ambientes de execução Codex e Claude Code e para uma referência matemática próxima, sem necessidade de otimização adicional.

English

Agent skills today are hand-crafted, generated one-shot, or evolved through loosely controlled self-revision, none of which behaves like a deep-learning optimizer for the skill, and none of which reliably improves over its starting point under feedback. We argue the skill should instead be trained as the external state of a frozen agent, with the same discipline that makes weight-space optimization reproducible. SkillOpt is, to our knowledge, the first systematic controllable text-space optimizer for agent skills: a separate optimizer model turns scored rollouts into bounded add/delete/replace edits on a single skill document, and an edit is accepted only when it strictly improves a held-out validation score. A textual learning-rate budget, rejected-edit buffer, and epoch-wise slow/meta update make skill training stable while adding zero inference-time model calls at deployment. Across six benchmarks, seven target models, and three execution harnesses (direct chat, Codex, Claude Code), SkillOpt is best or tied on all 52 evaluated (model, benchmark, harness) cells and beats every per-cell competitor among human, one-shot LLM, Trace2Skill, TextGrad, GEPA, and EvoSkill skills. On GPT-5.5 it lifts the average no-skill accuracy by +23.5 points in direct chat, by +24.8 inside the Codex agentic loop, and by +19.1 inside Claude Code. Transfer experiments further show that optimized skill artifacts retain value when moved across model scales, between Codex and Claude Code execution environments, and to a nearby math benchmark without further optimization.