Harnas-update is geen harnasvoordeel: het ontwarren van evolutiecapaciteiten in zelf-evoluerende LLM-agenten

Samenvatting

LLM-agenten worden steeds vaker ingezet als systemen die zijn opgebouwd rond bewerkbare externe harnassen, waaronder prompts, vaardigheden, geheugens en tools, die de taakuitvoering vormgeven zonder modelparameters te wijzigen. Harnas-zelftransformatie past dergelijke agenten aan door deze harnassen bij te werken op basis van uitvoeringsbewijzen. Het blijft echter onduidelijk of de basiscapaciteit van een model in het oplossen van taken voorspelt of het in staat is tot harnas-zelftransformatie: welke modellen produceren nuttige harnas-updates en welke profiteren er daadwerkelijk van? We analyseren twee harnas-zelftransformatiecapaciteiten: (i) harnas-updaten, het vermogen om nuttige persistente harnas-updates te produceren op basis van uitvoeringsbewijzen; (ii) harnas-baat, het vermogen om te profiteren van bijgewerkte harnassen tijdens het oplossen van taken. Onze analyse onthult twee bevindingen. Ten eerste is harnas-updaten vlak in basiscapaciteit: modellen uit verschillende capaciteitslagen produceren harnas-updates die leiden tot verrassend vergelijkbare winsten; zelfs de updates van Qwen3.5-9B leveren winsten op die vergelijkbaar zijn met die van Claude Opus~4.6. Ten tweede is harnas-baat niet-monotoon in basiscapaciteit: modellen uit de zwakke laag hebben weinig baat bij bijgewerkte harnassen, modellen uit de middenlaag hebben het meeste baat, en modellen uit de sterke laag hebben minder baat dan de middenlaag. We herleiden lage winsten in de zwakke laag tot twee faalwijzen: modellen uit de zwakke laag kunnen er niet in slagen relevante harnasartefacten te activeren, of ze activeren ze maar volgen ze niet getrouw. Deze bevindingen suggereren om het capaciteitsbudget te investeren in de taakoplossende agent in plaats van in de evolueerder, en om te richten op harnasaanroeping en het volgen van instructies met lange horizon in agenttraining. Onze broncode is openbaar beschikbaar op https://github.com/A-EVO-Lab/a-evolve/tree/release/harness-evolution.

English

LLM agents are increasingly deployed as systems built around editable external harnesses, including prompts, skills, memories and tools, that shape task execution without changing model parameters. Harness self-evolution adapts such agents by updating these harnesses from execution evidence. Yet it remains unclear whether a model's base capability in task-solving predicts its capabilities in harness self-evolution: which models produce useful harness updates, and which actually benefit from them? We analyze two harness self-evolution capabilities: (i) harness-updating, the capability to produce useful persistent harness updates from execution evidence; (ii) harness-benefit, the capability to benefit from updated harnesses during task solving. Our analysis reveals two findings. First, harness-updating is flat in base capability: models from different capability tiers produce harness updates that lead to surprisingly similar gains; even Qwen3.5-9B's updates yield gains comparable to those of Claude Opus~4.6. Second, harness-benefit is non-monotonic in base capability: weak-tier models benefit little from updated harnesses, mid-tier models benefit most, and strong-tier models benefit less than mid-tier. We trace low gains at the weak tier to two failure modes: weak-tier models may fail to activate relevant harness artifacts, or activate them but fail to follow them faithfully. These findings suggest investing capability budget in the task-solving agent rather than the evolver, and targeting harness invocation and long-horizon instruction following in agent training. Our source code is publicly available at https://github.com/A-EVO-Lab/a-evolve/tree/release/harness-evolution.