Harness-Updates sind kein Harness-Nutzen: Entflechtung der Evolutionsfähigkeiten in selbst-evolvierenden LLM-Agenten

Zusammenfassung

LLM-Agenten werden zunehmend als Systeme eingesetzt, die um editierbare externe Rahmenwerke herum aufgebaut sind, darunter Prompts, Fähigkeiten, Erinnerungen und Werkzeuge, die die Aufgabenausführung formen, ohne Modellparameter zu verändern. Die Selbstevolution des Rahmenwerks passt solche Agenten an, indem es diese Rahmenwerke auf der Grundlage von Ausführungsnachweisen aktualisiert. Es bleibt jedoch unklar, ob die Basisfähigkeit eines Modells zur Aufgabenlösung seine Fähigkeiten zur Selbstevolution des Rahmenwerks vorhersagt: Welche Modelle erzeugen nützliche Rahmenwerk-Aktualisierungen, und welche profitieren tatsächlich davon? Wir analysieren zwei Fähigkeiten zur Selbstevolution des Rahmenwerks: (i) Rahmenwerk-Aktualisierung, die Fähigkeit, aus Ausführungsnachweisen nützliche persistente Rahmenwerk-Aktualisierungen zu erzeugen; (ii) Rahmenwerk-Nutzen, die Fähigkeit, bei der Aufgabenlösung von aktualisierten Rahmenwerken zu profitieren. Unsere Analyse zeigt zwei Ergebnisse. Erstens ist die Rahmenwerk-Aktualisierung in der Basisfähigkeit flach: Modelle verschiedener Fähigkeitsstufen erzeugen Rahmenwerk-Aktualisierungen, die zu überraschend ähnlichen Verbesserungen führen; selbst die Aktualisierungen von Qwen3.5-9B erzielen vergleichbare Verbesserungen wie die von Claude Opus~4.6. Zweitens ist der Rahmenwerk-Nutzen in der Basisfähigkeit nicht-monoton: Modelle der schwachen Stufe profitieren wenig von aktualisierten Rahmenwerken, Modelle der mittleren Stufe profitieren am meisten, und Modelle der starken Stufe profitieren weniger als die der mittleren Stufe. Wir führen die geringen Verbesserungen auf der schwachen Stufe auf zwei Fehlermodi zurück: Modelle der schwachen Stufe können relevante Rahmenwerk-Artefakte möglicherweise nicht aktivieren oder aktivieren sie, halten sich aber nicht treu daran. Diese Ergebnisse legen nahe, das Fähigkeitsbudget in den aufgabenlösenden Agenten statt in den Evolver zu investieren und bei der Agenten-Trainierung auf den Rahmenwerk-Aufruf sowie die langfristige Befehlsbefolgung zu fokussieren. Unser Quellcode ist öffentlich verfügbar unter https://github.com/A-EVO-Lab/a-evolve/tree/release/harness-evolution.

English

LLM agents are increasingly deployed as systems built around editable external harnesses, including prompts, skills, memories and tools, that shape task execution without changing model parameters. Harness self-evolution adapts such agents by updating these harnesses from execution evidence. Yet it remains unclear whether a model's base capability in task-solving predicts its capabilities in harness self-evolution: which models produce useful harness updates, and which actually benefit from them? We analyze two harness self-evolution capabilities: (i) harness-updating, the capability to produce useful persistent harness updates from execution evidence; (ii) harness-benefit, the capability to benefit from updated harnesses during task solving. Our analysis reveals two findings. First, harness-updating is flat in base capability: models from different capability tiers produce harness updates that lead to surprisingly similar gains; even Qwen3.5-9B's updates yield gains comparable to those of Claude Opus~4.6. Second, harness-benefit is non-monotonic in base capability: weak-tier models benefit little from updated harnesses, mid-tier models benefit most, and strong-tier models benefit less than mid-tier. We trace low gains at the weak tier to two failure modes: weak-tier models may fail to activate relevant harness artifacts, or activate them but fail to follow them faithfully. These findings suggest investing capability budget in the task-solving agent rather than the evolver, and targeting harness invocation and long-horizon instruction following in agent training. Our source code is publicly available at https://github.com/A-EVO-Lab/a-evolve/tree/release/harness-evolution.