HarnessX: Uma Fundição de Arnês de Agente Componível, Adaptável e Evolucionável

Resumo

O desempenho de agentes de IA depende criticamente da estrutura de execução (runtime harness), composta pelos prompts, ferramentas, memória e fluxo de controle que mediam como um modelo observa, raciocina e age. No entanto, as estruturas atuais permanecem amplamente artesanais e estáticas: cada novo modelo ou tarefa ainda exige arcabouço sob medida, e os ricos traços gerados durante a execução raramente são destilados de volta para melhoria sistemática. Apresentamos o HarnessX, uma fundição para estruturas de agentes compostíveis, adaptáveis e evolutivas. O HarnessX monta primitivas de estrutura tipadas por meio de uma álgebra de substituição, adapta-as através do AEGIS, um motor de evolução multiagente orientado por traços, fundamentado em um espelho operacional entre adaptação simbólica e aprendizado por reforço, e fecha o ciclo estrutura-modelo ao transformar trajetórias tanto em atualizações de estrutura quanto em sinal de treinamento do modelo. Em cinco benchmarks (ALFWorld, GAIA, WebShop, tau^3-Bench e SWE-bench Verified), o HarnessX obtém um ganho médio de +14,5% (até +44,0%), com os maiores ganhos onde as linhas de base são mais baixas. Esses resultados sugerem que o progresso de agentes não precisa vir apenas do escalonamento de modelos: compor e evoluir interfaces de execução a partir de feedback de execução é uma alavanca acionável e complementar. O código completo será disponibilizado como código aberto em uma versão futura.

English

AI agent performance depends critically on the runtime harness, comprising the prompts, tools, memory, and control flow that mediate how a model observes, reasons, and acts. Yet today's harnesses remain largely hand-crafted and static: each new model or task still demands bespoke scaffolding, and the rich traces produced during execution are rarely distilled back into systematic improvement. We introduce HarnessX, a foundry for composable, adaptive, and evolvable agent harnesses. HarnessX assembles typed harness primitives via a substitution algebra, adapts them through AEGIS, a trace-driven multi-agent evolution engine grounded in an operational mirror between symbolic adaptation and reinforcement learning, and closes the harness-model loop by turning trajectories into both harness updates and model training signal. Across five benchmarks (ALFWorld, GAIA, WebShop, tau^3-Bench, and SWE-bench Verified), HarnessX yields an average gain of +14.5% (up to +44.0%), with gains largest where baselines are lowest. These results suggest that agent progress need not come from model scaling alone: composing and evolving runtime interfaces from execution feedback is an actionable and complementary lever. The complete codebase will be open-sourced in a future release.