Actualización del Harness no es Beneficio del Harness: Desentrañando las Capacidades de Evolución en Agentes LLM Autoevolutivos

Resumen

Los agentes LLM se despliegan cada vez más como sistemas construidos alrededor de arneses externos editables, que incluyen indicaciones (prompts), habilidades, memorias y herramientas, que configuran la ejecución de tareas sin modificar los parámetros del modelo. La autoevolución del arnés adapta dichos agentes actualizando estos arneses a partir de evidencia de ejecución. Sin embargo, aún no está claro si la capacidad base del modelo para resolver tareas predice su capacidad en la autoevolución del arnés: ¿qué modelos producen actualizaciones útiles del arnés, y cuáles se benefician realmente de ellas? Analizamos dos capacidades de autoevolución del arnés: (i) actualización del arnés, la capacidad de producir actualizaciones persistentes y útiles del arnés a partir de evidencia de ejecución; (ii) beneficio del arnés, la capacidad de beneficiarse de arneses actualizados durante la resolución de tareas. Nuestro análisis revela dos hallazgos. Primero, la actualización del arnés es plana en capacidad base: modelos de diferentes niveles de capacidad producen actualizaciones del arnés que generan ganancias sorprendentemente similares; incluso las actualizaciones de Qwen3.5-9B arrojan ganancias comparables a las de Claude Opus ~4.6. Segundo, el beneficio del arnés es no monótono en capacidad base: los modelos de nivel bajo se benefician poco de los arneses actualizados, los de nivel medio se benefician más, y los de nivel alto se benefician menos que los de nivel medio. Atribuimos las bajas ganancias en el nivel bajo a dos modos de fallo: los modelos de nivel bajo pueden no activar los artefactos del arnés relevantes, o activarlos pero no seguirlos fielmente. Estos hallazgos sugieren invertir el presupuesto de capacidad en el agente de resolución de tareas en lugar del evolucionador, y orientar el entrenamiento de agentes hacia la invocación del arnés y el seguimiento de instrucciones a largo plazo. Nuestro código fuente está disponible públicamente en https://github.com/A-EVO-Lab/a-evolve/tree/release/harness-evolution.

English

LLM agents are increasingly deployed as systems built around editable external harnesses, including prompts, skills, memories and tools, that shape task execution without changing model parameters. Harness self-evolution adapts such agents by updating these harnesses from execution evidence. Yet it remains unclear whether a model's base capability in task-solving predicts its capabilities in harness self-evolution: which models produce useful harness updates, and which actually benefit from them? We analyze two harness self-evolution capabilities: (i) harness-updating, the capability to produce useful persistent harness updates from execution evidence; (ii) harness-benefit, the capability to benefit from updated harnesses during task solving. Our analysis reveals two findings. First, harness-updating is flat in base capability: models from different capability tiers produce harness updates that lead to surprisingly similar gains; even Qwen3.5-9B's updates yield gains comparable to those of Claude Opus~4.6. Second, harness-benefit is non-monotonic in base capability: weak-tier models benefit little from updated harnesses, mid-tier models benefit most, and strong-tier models benefit less than mid-tier. We trace low gains at the weak tier to two failure modes: weak-tier models may fail to activate relevant harness artifacts, or activate them but fail to follow them faithfully. These findings suggest investing capability budget in the task-solving agent rather than the evolver, and targeting harness invocation and long-horizon instruction following in agent training. Our source code is publicly available at https://github.com/A-EVO-Lab/a-evolve/tree/release/harness-evolution.