Atualização do Harness Não é Benefício do Harness: Desvendando Capacidades de Evolução em Agentes LLM Auto-Evolutivos

Resumo

Agentes LLM são cada vez mais implantados como sistemas construídos em torno de estruturas externas editáveis, incluindo prompts, habilidades, memórias e ferramentas, que moldam a execução de tarefas sem alterar os parâmetros do modelo. A auto-evolução da estrutura externa adapta esses agentes atualizando essas estruturas a partir de evidências de execução. No entanto, ainda não está claro se a capacidade base do modelo em resolver tarefas prediz suas capacidades em auto-evolução da estrutura externa: quais modelos produzem atualizações úteis da estrutura externa e quais realmente se beneficiam delas? Analisamos duas capacidades de auto-evolução da estrutura externa: (i) atualização da estrutura externa, a capacidade de produzir atualizações persistentes e úteis da estrutura externa a partir de evidências de execução; (ii) benefício da estrutura externa, a capacidade de se beneficiar de estruturas externas atualizadas durante a resolução de tarefas. Nossa análise revela duas descobertas. Primeiro, a atualização da estrutura externa é plana em capacidade base: modelos de diferentes níveis de capacidade produzem atualizações da estrutura externa que levam a ganhos surpreendentemente semelhantes; até mesmo as atualizações do Qwen3.5-9B produzem ganhos comparáveis aos do Claude Opus~4.6. Segundo, o benefício da estrutura externa é não monotônico em capacidade base: modelos de nível fraco se beneficiam pouco de estruturas externas atualizadas, modelos de nível médio se beneficiam mais, e modelos de nível forte se beneficiam menos que os de nível médio. Atribuímos os baixos ganhos no nível fraco a dois modos de falha: modelos de nível fraco podem falhar em ativar artefatos relevantes da estrutura externa, ou ativá-los mas falhar em segui-los fielmente. Essas descobertas sugerem investir o orçamento de capacidade no agente de resolução de tarefas, e não no evoluído; e visar a invocação da estrutura externa e o seguimento de instruções de longo horizonte no treinamento de agentes. Nosso código-fonte está disponível publicamente em https://github.com/A-EVO-Lab/a-evolve/tree/release/harness-evolution.

English

LLM agents are increasingly deployed as systems built around editable external harnesses, including prompts, skills, memories and tools, that shape task execution without changing model parameters. Harness self-evolution adapts such agents by updating these harnesses from execution evidence. Yet it remains unclear whether a model's base capability in task-solving predicts its capabilities in harness self-evolution: which models produce useful harness updates, and which actually benefit from them? We analyze two harness self-evolution capabilities: (i) harness-updating, the capability to produce useful persistent harness updates from execution evidence; (ii) harness-benefit, the capability to benefit from updated harnesses during task solving. Our analysis reveals two findings. First, harness-updating is flat in base capability: models from different capability tiers produce harness updates that lead to surprisingly similar gains; even Qwen3.5-9B's updates yield gains comparable to those of Claude Opus~4.6. Second, harness-benefit is non-monotonic in base capability: weak-tier models benefit little from updated harnesses, mid-tier models benefit most, and strong-tier models benefit less than mid-tier. We trace low gains at the weak tier to two failure modes: weak-tier models may fail to activate relevant harness artifacts, or activate them but fail to follow them faithfully. These findings suggest investing capability budget in the task-solving agent rather than the evolver, and targeting harness invocation and long-horizon instruction following in agent training. Our source code is publicly available at https://github.com/A-EVO-Lab/a-evolve/tree/release/harness-evolution.