SkillOpt: Исполнительная стратегия для самоэволюционирующих навыков агента

Аннотация

Сегодня навыки агентов создаются вручную, генерируются за один проход или эволюционируют через слабо контролируемую саморедакцию — ни один из этих подходов не работает как оптимизатор глубокого обучения для навыка, и ни один из них гарантированно улучшается относительно начальной точки под действием обратной связи. Мы утверждаем, что навык следует обучать как внешнее состояние замороженного агента, применяя ту же дисциплину, которая делает оптимизацию в пространстве весов воспроизводимой. SkillOpt, насколько нам известно, — первый систематический управляемый текстовый оптимизатор навыков агентов: отдельная модель-оптимизатор преобразует оцениваемые прогоны в ограниченные правки добавления/удаления/замены в едином документе навыка, и правка принимается только в том случае, если она строго улучшает отложенную валидационную оценку. Текстовый бюджет скорости обучения, буфер отклонённых правок и эпохальное медленное/мета-обновление делают обучение навыка стабильным, при этом на этапе развёртывания не добавляется ни одного вызова модели во время инференса. На шести бенчмарках, семи целевых моделях и трёх исполнительных обвязках (прямой чат, Codex, Claude Code) SkillOpt показывает лучший или сравнимый результат во всех 52 оцениваемых ячейках (модель, бенчмарк, обвязка) и превосходит каждого конкурента в каждой ячейке среди навыков, созданных человеком, одноразовым LLM, Trace2Skill, TextGrad, GEPA и EvoSkill. На GPT-5.5 он повышает среднюю точность без навыка на +23,5 пункта в прямом чате, на +24,8 в агентном цикле Codex и на +19,1 в Claude Code. Эксперименты по переносу дополнительно показывают, что оптимизированные артефакты навыков сохраняют ценность при перемещении между масштабами моделей, между средами выполнения Codex и Claude Code, а также на близкий математический бенчмарк без дополнительной оптимизации.

English

Agent skills today are hand-crafted, generated one-shot, or evolved through loosely controlled self-revision, none of which behaves like a deep-learning optimizer for the skill, and none of which reliably improves over its starting point under feedback. We argue the skill should instead be trained as the external state of a frozen agent, with the same discipline that makes weight-space optimization reproducible. SkillOpt is, to our knowledge, the first systematic controllable text-space optimizer for agent skills: a separate optimizer model turns scored rollouts into bounded add/delete/replace edits on a single skill document, and an edit is accepted only when it strictly improves a held-out validation score. A textual learning-rate budget, rejected-edit buffer, and epoch-wise slow/meta update make skill training stable while adding zero inference-time model calls at deployment. Across six benchmarks, seven target models, and three execution harnesses (direct chat, Codex, Claude Code), SkillOpt is best or tied on all 52 evaluated (model, benchmark, harness) cells and beats every per-cell competitor among human, one-shot LLM, Trace2Skill, TextGrad, GEPA, and EvoSkill skills. On GPT-5.5 it lifts the average no-skill accuracy by +23.5 points in direct chat, by +24.8 inside the Codex agentic loop, and by +19.1 inside Claude Code. Transfer experiments further show that optimized skill artifacts retain value when moved across model scales, between Codex and Claude Code execution environments, and to a nearby math benchmark without further optimization.