HarnessForge: Evolución conjunta del arnés y las políticas para sistemas de agentes adaptativos

Resumen

Los agentes LLM están siendo cada vez más requeridos para operar en regímenes de tareas heterogéneas que exigen paradigmas de ejecución distintos. Esto desafía a los sistemas de agentes fijos y motiva la necesidad de una meta-adaptación a nivel del sistema más allá de las actualizaciones aisladas de componentes. Si bien trabajos existentes han adaptado el arnés externo o entrenado las políticas de razonamiento subyacentes, la adaptación del sistema completo sigue estando insuficientemente caracterizada. El espacio de adaptación entre la estructura y la ejecución rara vez se hace explícito, y la compatibilidad entre el arnés externo y el razonador interno no se optimiza de manera conjunta. Proponemos HarnessForge, un marco meta-adaptativo para la evolución de sistemas de agentes LLM. HarnessForge formula un sistema de agente como un par arnés–política, definiendo un espacio de adaptación estable que separa la estructura de ejecución a nivel de arnés del comportamiento de razonamiento a nivel de política. Luego realiza una co-evolución arnés–política mediante un ajuste del arnés guiado por fallos y una alineación de políticas condicionada por el arnés. Los experimentos en cinco puntos de referencia de diversos dominios muestran que HarnessForge mejora consistentemente tanto los backbones Qwen3-4B como Qwen3-8B, superando a las líneas base de solo arnés y solo política con ganancias de hasta un 12,0% sobre la línea base más fuerte, y logrando compensaciones favorables entre eficiencia de despliegue y ejecución. Esto demuestra que la co-evolución arnés–política es efectiva y que la compatibilidad ejecutable entre el arnés y la política de razonamiento es esencial para la adaptación del sistema agente. El código está disponible en https://github.com/mingju-c/HarnessForge.

English

LLM agents are increasingly expected to operate across heterogeneous task regimes that require distinct execution paradigms. This challenges fixed agent systems and motivates system-level meta-adaptation beyond isolated component updates. While existing works have adapted external harness or trained underlying reasoning policies, full-system adaptation remains insufficiently characterized. The adaptation space between structure and execution is rarely made explicit, and the compatibility between the external harness and the internal reasoner is not optimized jointly. We propose HarnessForge, a meta-adaptive framework for evolving LLM agent systems. HarnessForge formulates an agent system as a harness--policy pair, defining a stable adaptation space that separates harness-level execution structure from policy-level reasoning behavior. It then performs harness--policy co-evolution through fault-guided harness tailoring and harness-conditioned policy alignment. Experiments across five benchmarks from diverse domains show that HarnessForge consistently improves both Qwen3-4B and Qwen3-8B backbones, outperforming harness-only and policy-only baselines with gains of up to 12.0\% over the strongest baseline and achieving favorable rollout-efficiency tradeoffs, demonstrating that harness--policy co-evolution is effective, and that executable compatibility between the harness and reasoning policy is essential for agent-system adaptation. The code is available at https://github.com/mingju-c/HarnessForge.