SkillOpt: Ausführungsstrategie für selbstentwickelnde Agentenfähigkeiten

Zusammenfassung

Agentenfähigkeiten werden heute von Hand erstellt, in einem Schritt generiert oder durch lose kontrollierte Selbstverbesserung weiterentwickelt. Keiner dieser Ansätze verhält sich wie ein Deep-Learning-Optimierer für die Fähigkeit, und keiner verbessert sich unter Rückmeldung zuverlässig über seinen Ausgangspunkt hinaus. Wir argumentieren, dass die Fähigkeit stattdessen als externer Zustand eines eingefrorenen Agenten trainiert werden sollte – mit derselben Disziplin, die die Reproduzierbarkeit von Gewichtsraumoptimierung gewährleistet. SkillOpt ist unseres Wissens der erste systematische, kontrollierbare Textraum-Optimierer für Agentenfähigkeiten: Ein separates Optimierungsmodell wandelt bewertete Rollouts in begrenzte Hinzufügen-/Löschen-/Ersetzen-Änderungen an einem einzigen Skill-Dokument um, und eine Änderung wird nur akzeptiert, wenn sie einen zurückgehaltenen Validierungswert strikt verbessert. Ein textuelles Lernratenbudget, ein Puffer für abgelehnte Änderungen und eine epochenweise langsame/Meta-Aktualisierung machen das Skill-Training stabil, während bei der Bereitstellung null zusätzliche Modellaufrufe zur Inferenzzeit anfallen. Über sechs Benchmarks, sieben Zielmodelle und drei Ausführungsumgebungen (direkter Chat, Codex, Claude Code) hinweg ist SkillOpt in allen 52 bewerteten (Modell, Benchmark, Umgebung)-Zellen entweder am besten oder gleichauf und schlägt jeden zellenweisen Konkurrenten unter menschlichen, One-Shot-LLM-, Trace2Skill-, TextGrad-, GEPA- und EvoSkill-Fähigkeiten. Mit GPT-5.5 steigert es die durchschnittliche Genauigkeit ohne Skill um +23,5 Punkte im direkten Chat, um +24,8 innerhalb der Codex-Agentenschleife und um +19,1 innerhalb von Claude Code. Transferexperimente zeigen weiterhin, dass optimierte Skill-Artefakte ihren Wert behalten, wenn sie über Modellskalen hinweg, zwischen Codex- und Claude-Code-Ausführungsumgebungen sowie zu einem nahegelegenen Mathematik-Benchmark ohne weitere Optimierung verschoben werden.

English

Agent skills today are hand-crafted, generated one-shot, or evolved through loosely controlled self-revision, none of which behaves like a deep-learning optimizer for the skill, and none of which reliably improves over its starting point under feedback. We argue the skill should instead be trained as the external state of a frozen agent, with the same discipline that makes weight-space optimization reproducible. SkillOpt is, to our knowledge, the first systematic controllable text-space optimizer for agent skills: a separate optimizer model turns scored rollouts into bounded add/delete/replace edits on a single skill document, and an edit is accepted only when it strictly improves a held-out validation score. A textual learning-rate budget, rejected-edit buffer, and epoch-wise slow/meta update make skill training stable while adding zero inference-time model calls at deployment. Across six benchmarks, seven target models, and three execution harnesses (direct chat, Codex, Claude Code), SkillOpt is best or tied on all 52 evaluated (model, benchmark, harness) cells and beats every per-cell competitor among human, one-shot LLM, Trace2Skill, TextGrad, GEPA, and EvoSkill skills. On GPT-5.5 it lifts the average no-skill accuracy by +23.5 points in direct chat, by +24.8 inside the Codex agentic loop, and by +19.1 inside Claude Code. Transfer experiments further show that optimized skill artifacts retain value when moved across model scales, between Codex and Claude Code execution environments, and to a nearby math benchmark without further optimization.