SkillOpt : Stratégie exécutive pour des compétences d’agents auto-évolutives

Résumé

Les compétences des agents sont aujourd'hui conçues de manière artisanale, générées en un seul passage, ou évoluées via une auto-révision faiblement contrôlée ; aucune de ces approches ne se comporte comme un optimiseur d'apprentissage profond pour la compétence, et aucune n'améliore de manière fiable son point de départ sous l'effet du retour d'information. Nous soutenons que la compétence devrait plutôt être entraînée comme l'état externe d'un agent figé, avec la même rigueur qui rend l'optimisation de l'espace des poids reproductible. SkillOpt est, à notre connaissance, le premier optimiseur systématique et contrôlable dans l'espace textuel pour les compétences d'agent : un modèle optimiseur distinct transforme des déroulements notés en éditions bornées d'ajout/suppression/remplacement sur un document de compétence unique, et une édition n'est acceptée que lorsqu'elle améliore strictement un score de validation sur un ensemble de retenue. Un budget de taux d'apprentissage textuel, un tampon d'éditions rejetées et une mise à jour lente/méta par époque rendent l'entraînement des compétences stable, tout en n'ajoutant aucun appel de modèle en inférence lors du déploiement. Sur six référentiels, sept modèles cibles et trois environnements d'exécution (chat direct, Codex, Claude Code), SkillOpt est le meilleur ou ex æquo sur la totalité des 52 cellules (modèle, référentiel, environnement) évaluées et bat tous ses concurrents par cellule parmi les compétences humaines, générées par LLM en un seul passage, Trace2Skill, TextGrad, GEPA et EvoSkill. Sur GPT-5.5, il augmente la précision sans compétence moyenne de +23,5 points en chat direct, de +24,8 points à l'intérieur de la boucle agentique Codex, et de +19,1 points à l'intérieur de Claude Code. Les expériences de transfert montrent en outre que les artefacts de compétence optimisés conservent leur valeur lorsqu'ils sont déplacés entre échelles de modèle, entre environnements d'exécution Codex et Claude Code, et vers un référentiel de mathématiques proche sans optimisation supplémentaire.

English

Agent skills today are hand-crafted, generated one-shot, or evolved through loosely controlled self-revision, none of which behaves like a deep-learning optimizer for the skill, and none of which reliably improves over its starting point under feedback. We argue the skill should instead be trained as the external state of a frozen agent, with the same discipline that makes weight-space optimization reproducible. SkillOpt is, to our knowledge, the first systematic controllable text-space optimizer for agent skills: a separate optimizer model turns scored rollouts into bounded add/delete/replace edits on a single skill document, and an edit is accepted only when it strictly improves a held-out validation score. A textual learning-rate budget, rejected-edit buffer, and epoch-wise slow/meta update make skill training stable while adding zero inference-time model calls at deployment. Across six benchmarks, seven target models, and three execution harnesses (direct chat, Codex, Claude Code), SkillOpt is best or tied on all 52 evaluated (model, benchmark, harness) cells and beats every per-cell competitor among human, one-shot LLM, Trace2Skill, TextGrad, GEPA, and EvoSkill skills. On GPT-5.5 it lifts the average no-skill accuracy by +23.5 points in direct chat, by +24.8 inside the Codex agentic loop, and by +19.1 inside Claude Code. Transfer experiments further show that optimized skill artifacts retain value when moved across model scales, between Codex and Claude Code execution environments, and to a nearby math benchmark without further optimization.