La mise à jour du harnais n’est pas un bénéfice du harnais : Démêler les capacités d’évolution dans les agents LLM auto-évolutifs

Résumé

Les agents LLM sont de plus en plus déployés en tant que systèmes construits autour de harnais externes modifiables, incluant des invites (prompts), des compétences (skills), des mémoires et des outils, qui façonnent l'exécution des tâches sans modifier les paramètres du modèle. L'auto-évolution des harnais adapte ces agents en mettant à jour ces harnais à partir de preuves d'exécution. Cependant, il reste incertain si la capacité de base d'un modèle à résoudre des tâches prédit ses capacités d'auto-évolution des harnais : quels modèles produisent des mises à jour de harnais utiles, et lesquels en tirent réellement profit ? Nous analysons deux capacités d'auto-évolution des harnais : (i) la mise à jour des harnais, la capacité à produire des mises à jour de harnais persistantes et utiles à partir de preuves d'exécution ; (ii) le bénéfice des harnais, la capacité à tirer profit des harnais mis à jour lors de la résolution de tâches. Notre analyse révèle deux constats. Premièrement, la mise à jour des harnais est uniforme en termes de capacité de base : des modèles de différents niveaux de capacité produisent des mises à jour de harnais qui entraînent des gains étonnamment similaires ; même les mises à jour de Qwen3.5-9B produisent des gains comparables à ceux de Claude Opus ~4.6. Deuxièmement, le bénéfice des harnais est non monotone par rapport à la capacité de base : les modèles de niveau faible bénéficient peu des harnais mis à jour, les modèles de niveau intermédiaire en bénéficient le plus, et les modèles de niveau fort en bénéficient moins que ceux de niveau intermédiaire. Nous attribuons les faibles gains au niveau faible à deux modes de défaillance : les modèles de niveau faible peuvent ne pas parvenir à activer les artefacts de harnais pertinents, ou les activer mais ne pas les suivre fidèlement. Ces résultats suggèrent d'investir le budget de capacité dans l'agent de résolution de tâches plutôt que dans l'évolueur, et de cibler l'invocation des harnais et le suivi d'instructions à long terme dans l'entraînement des agents. Notre code source est disponible publiquement à l'adresse https://github.com/A-EVO-Lab/a-evolve/tree/release/harness-evolution.

English

LLM agents are increasingly deployed as systems built around editable external harnesses, including prompts, skills, memories and tools, that shape task execution without changing model parameters. Harness self-evolution adapts such agents by updating these harnesses from execution evidence. Yet it remains unclear whether a model's base capability in task-solving predicts its capabilities in harness self-evolution: which models produce useful harness updates, and which actually benefit from them? We analyze two harness self-evolution capabilities: (i) harness-updating, the capability to produce useful persistent harness updates from execution evidence; (ii) harness-benefit, the capability to benefit from updated harnesses during task solving. Our analysis reveals two findings. First, harness-updating is flat in base capability: models from different capability tiers produce harness updates that lead to surprisingly similar gains; even Qwen3.5-9B's updates yield gains comparable to those of Claude Opus~4.6. Second, harness-benefit is non-monotonic in base capability: weak-tier models benefit little from updated harnesses, mid-tier models benefit most, and strong-tier models benefit less than mid-tier. We trace low gains at the weak tier to two failure modes: weak-tier models may fail to activate relevant harness artifacts, or activate them but fail to follow them faithfully. These findings suggest investing capability budget in the task-solving agent rather than the evolver, and targeting harness invocation and long-horizon instruction following in agent training. Our source code is publicly available at https://github.com/A-EVO-Lab/a-evolve/tree/release/harness-evolution.