HarnessForge: Evolução Conjunta de Harness e Política para Sistemas de Agentes Adaptativos

Resumo

Espera-se que agentes LLM operem cada vez mais em regimes de tarefas heterogêneos que exigem paradigmas de execução distintos. Isso desafia sistemas de agentes fixos e motiva a meta-adaptação em nível de sistema, além de atualizações isoladas de componentes. Embora trabalhos existentes tenham adaptado o harness externo ou treinado políticas de raciocínio subjacentes, a adaptação de sistema completo ainda é insuficientemente caracterizada. O espaço de adaptação entre estrutura e execução raramente é explicitado, e a compatibilidade entre o harness externo e o raciocinador interno não é otimizada conjuntamente. Propomos o HarnessForge, uma estrutura meta-adaptativa para evoluir sistemas de agentes LLM. O HarnessForge formula um sistema de agente como um par harness–política, definindo um espaço de adaptação estável que separa a estrutura de execução em nível de harness do comportamento de raciocínio em nível de política. Em seguida, realiza a coevolução harness–política por meio de ajuste do harness guiado por falhas e alinhamento de política condicionado ao harness. Experimentos em cinco benchmarks de domínios diversos mostram que o HarnessForge melhora consistentemente tanto os backbones Qwen3-4B quanto Qwen3-8B, superando as linhas de base apenas com harness e apenas com política, com ganhos de até 12,0% sobre a linha de base mais forte e alcançando compromissos favoráveis de eficiência de rollout, demonstrando que a coevolução harness–política é eficaz e que a compatibilidade executável entre o harness e a política de raciocínio é essencial para a adaptação do sistema de agente. O código está disponível em https://github.com/mingju-c/HarnessForge.

English

LLM agents are increasingly expected to operate across heterogeneous task regimes that require distinct execution paradigms. This challenges fixed agent systems and motivates system-level meta-adaptation beyond isolated component updates. While existing works have adapted external harness or trained underlying reasoning policies, full-system adaptation remains insufficiently characterized. The adaptation space between structure and execution is rarely made explicit, and the compatibility between the external harness and the internal reasoner is not optimized jointly. We propose HarnessForge, a meta-adaptive framework for evolving LLM agent systems. HarnessForge formulates an agent system as a harness--policy pair, defining a stable adaptation space that separates harness-level execution structure from policy-level reasoning behavior. It then performs harness--policy co-evolution through fault-guided harness tailoring and harness-conditioned policy alignment. Experiments across five benchmarks from diverse domains show that HarnessForge consistently improves both Qwen3-4B and Qwen3-8B backbones, outperforming harness-only and policy-only baselines with gains of up to 12.0\% over the strongest baseline and achieving favorable rollout-efficiency tradeoffs, demonstrating that harness--policy co-evolution is effective, and that executable compatibility between the harness and reasoning policy is essential for agent-system adaptation. The code is available at https://github.com/mingju-c/HarnessForge.