SkillOpt: Uitvoerende Strategie voor Zelf-evoluerende Agentvaardigheden

Samenvatting

Huidige agentvaardigheden worden met de hand vervaardigd, in één keer gegenereerd of geëvolueerd via losjes gecontroleerde zelfrevisie. Geen van deze benaderingen functioneert als een deep-learning-optimalisator voor de vaardigheid en geen ervan verbetert op betrouwbare wijze ten opzichte van het startpunt onder feedback. Wij stellen dat de vaardigheid in plaats daarvan moet worden getraind als de externe toestand van een bevroren agent, met dezelfde discipline die herhaalbaarheid in gewichtsruimte-optimalisatie garandeert. SkillOpt is, voor zover wij weten, de eerste systematische, beheersbare tekstruimte-optimalisator voor agentvaardigheden: een apart optimalisatiemodel zet gescoorde rollouts om in begrensde toevoeg-/verwijder-/vervangingsbewerkingen op één enkel vaardigheidsdocument, en een bewerking wordt alleen geaccepteerd wanneer deze de validatiescore op een aparte validatieset strikt verbetert. Een tekstueel leercurvebudget, een buffer voor afgewezen bewerkingen en een epochegewijze trage/meta-update maken vaardigheidstraining stabiel, terwijl er bij implementatie nul extra modelaanroepen tijdens de inferentie nodig zijn. Over zes benchmarks, zeven doelmodellen en drie uitvoeringsomgevingen (directe chat, Codex, Claude Code) is SkillOpt de beste of gelijkwaardig op alle 52 geëvalueerde (model, benchmark, omgeving)-cellen en verslaat het elke per-cel concurrent onder menselijke, one-shot-LLM-, Trace2Skill-, TextGrad-, GEPA- en EvoSkill-vaardigheden. Op GPT-5.5 verhoogt het de gemiddelde nauwkeurigheid zonder vaardigheid met +23,5 punten in directe chat, met +24,8 in de Codex-agentische lus en met +19,1 in Claude Code. Overdrachtsexperimenten tonen verder aan dat geoptimaliseerde vaardigheidsartefacten waarde behouden wanneer ze worden verplaatst over modelschalen, tussen Codex- en Claude Code-uitvoeringsomgevingen en naar een nabijgelegen wiskundebenchmark zonder verdere optimalisatie.

English

Agent skills today are hand-crafted, generated one-shot, or evolved through loosely controlled self-revision, none of which behaves like a deep-learning optimizer for the skill, and none of which reliably improves over its starting point under feedback. We argue the skill should instead be trained as the external state of a frozen agent, with the same discipline that makes weight-space optimization reproducible. SkillOpt is, to our knowledge, the first systematic controllable text-space optimizer for agent skills: a separate optimizer model turns scored rollouts into bounded add/delete/replace edits on a single skill document, and an edit is accepted only when it strictly improves a held-out validation score. A textual learning-rate budget, rejected-edit buffer, and epoch-wise slow/meta update make skill training stable while adding zero inference-time model calls at deployment. Across six benchmarks, seven target models, and three execution harnesses (direct chat, Codex, Claude Code), SkillOpt is best or tied on all 52 evaluated (model, benchmark, harness) cells and beats every per-cell competitor among human, one-shot LLM, Trace2Skill, TextGrad, GEPA, and EvoSkill skills. On GPT-5.5 it lifts the average no-skill accuracy by +23.5 points in direct chat, by +24.8 inside the Codex agentic loop, and by +19.1 inside Claude Code. Transfer experiments further show that optimized skill artifacts retain value when moved across model scales, between Codex and Claude Code execution environments, and to a nearby math benchmark without further optimization.