Arnês Automático Adaptativo: Autoaperfeiçoamento Sustentado para Implantação de Sistemas Agênticos em Fluxos de Tarefas Abertos
Adaptive Auto-Harness: Sustained Self-Improvement for Agentic System Deployment on Open-Ended Task Streams
June 1, 2026
Autores: Zewen Liu, Zhan Shi, Yisi Sang, Bing He, Minhua Lin, Tianxin Wei, Dakuo Wang, Benoit Dumoulin, Wei Jin, Hanqing Lu
cs.AI
Resumo
Sistemas de auto-harness como A-Evolve, GEPA e Meta-Harness melhoram agentes de LLM otimizando prompts, habilidades, ferramentas, memórias e infraestruturas de suporte a partir do feedback de execução, mas são tipicamente avaliados em benchmarks offline fixos. Implantações reais, em vez disso, apresentam fluxos de tarefas abertos (open-ended): os históricos crescem sem um ponto final fixo, tarefas heterogêneas exigem diferentes harnesses, e as distribuições de problemas mudam ao longo do tempo. Esses desafios tornam frágil um único harness atualizado repetida e densamente, causando degradação de desempenho à medida que a precisão atinge um pico precoce e depois declina. Isso motiva a construção sustentada de harness com adaptação por tarefa. Apresentamos o Adaptive Auto-Harness, uma estrutura (framework) e sistema para tais fluxos. O framework decompõe a lacuna em relação a um harness oráculo em perda de evolução e perda de adaptação. O sistema aborda essas perdas com um evolver multiagente com estado (stateful), uma árvore de harness com roteamento em tempo de resolução, e ganchos de direção humana para casos em que o histórico carece do sinal necessário. Em fluxos de mercado de previsão, competição de segurança e previsão de eventos, o Adaptive Auto-Harness supera cinco baselines de auto-harness existentes, e as ablações atribuem os ganhos a melhor construção, roteamento ou direção humana direcionada. O código está disponível em https://github.com/A-EVO-Lab/AdaptiveHarness .
English
Auto-harness systems such as A-Evolve, GEPA, and Meta-Harness improve LLM agents by optimizing prompts, skills, tools, memories, and supporting infrastructure from execution feedback, but they are typically evaluated on fixed offline benchmarks. Real deployments instead present open-ended task streams: histories grow without a fixed endpoint, heterogeneous tasks require different harnesses, and problem distributions shift over time. These challenges make a single repeatedly and densely updated harness brittle, causing performance degradation as accuracy peaks early and then declines. This motivates sustained harness construction with task-wise adaptation. We introduce Adaptive Auto-Harness, a framework and system for such streams. The framework decomposes the gap to an oracle harness into evolution loss and adaptation loss. The system addresses these losses with a stateful multi-agent evolver, a harness tree with solve-time routing, and human-steering hooks for cases where history lacks the needed signal. Across prediction-market, security-competition, and event-forecasting streams, Adaptive Auto-Harness outperforms five existing auto-harness baselines and ablations attribute gains to better construction, routing, or targeted human steering. Code is available in https://github.com/A-EVO-Lab/AdaptiveHarness .