Обновление оснастки не является преимуществом оснастки: распутывание эволюционных способностей в самоэволюционирующих LLM-агентах

Аннотация

Агенты на основе больших языковых моделей (LLM) всё чаще развёртываются как системы, построенные вокруг редактируемой внешней обвязки, включающей подсказки, навыки, память и инструменты, которые управляют выполнением задач без изменения параметров модели. Самоэволюция обвязки адаптирует таких агентов путём обновления этой обвязки на основе свидетельств выполнения. Однако остаётся неясным, предсказывает ли базовая способность модели к решению задач её способности к самоэволюции обвязки: какие модели производят полезные обновления обвязки и какие из них действительно извлекают из них пользу? Мы анализируем две способности самоэволюции обвязки: (i) обновление обвязки — способность создавать полезные постоянные обновления обвязки на основе свидетельств выполнения; (ii) получение выгоды от обвязки — способность извлекать пользу из обновлённой обвязки при решении задач. Наш анализ выявляет два результата. Во-первых, способность к обновлению обвязки является плоской по отношению к базовой способности: модели из разных уровней способностей создают обновления обвязки, которые приводят к удивительно схожим улучшениям; даже обновления Qwen3.5-9B дают выигрыши, сравнимые с выигрышами Claude Opus~4.6. Во-вторых, получение выгоды от обвязки немонотонно по отношению к базовой способности: модели слабого уровня мало выигрывают от обновлённой обвязки, модели среднего уровня выигрывают больше всего, а модели сильного уровня выигрывают меньше, чем модели среднего уровня. Мы связываем низкие выигрыши на слабом уровне с двумя типами отказов: модели слабого уровня могут не активировать соответствующие артефакты обвязки или активировать их, но не следовать им надлежащим образом. Эти результаты предполагают, что бюджет вычислительных ресурсов следует вкладывать в агента, решающего задачи, а не в эволюционера, а также направлять внимание на вызов обвязки и следование долгосрочным инструкциям при обучении агентов. Исходный код общедоступен по адресу https://github.com/A-EVO-Lab/a-evolve/tree/release/harness-evolution.

English

LLM agents are increasingly deployed as systems built around editable external harnesses, including prompts, skills, memories and tools, that shape task execution without changing model parameters. Harness self-evolution adapts such agents by updating these harnesses from execution evidence. Yet it remains unclear whether a model's base capability in task-solving predicts its capabilities in harness self-evolution: which models produce useful harness updates, and which actually benefit from them? We analyze two harness self-evolution capabilities: (i) harness-updating, the capability to produce useful persistent harness updates from execution evidence; (ii) harness-benefit, the capability to benefit from updated harnesses during task solving. Our analysis reveals two findings. First, harness-updating is flat in base capability: models from different capability tiers produce harness updates that lead to surprisingly similar gains; even Qwen3.5-9B's updates yield gains comparable to those of Claude Opus~4.6. Second, harness-benefit is non-monotonic in base capability: weak-tier models benefit little from updated harnesses, mid-tier models benefit most, and strong-tier models benefit less than mid-tier. We trace low gains at the weak tier to two failure modes: weak-tier models may fail to activate relevant harness artifacts, or activate them but fail to follow them faithfully. These findings suggest investing capability budget in the task-solving agent rather than the evolver, and targeting harness invocation and long-horizon instruction following in agent training. Our source code is publicly available at https://github.com/A-EVO-Lab/a-evolve/tree/release/harness-evolution.