HarnessX: Een samenstelbare, adaptieve en evolueerbare Agent Harness Foundry

Samenvatting

De prestaties van AI-agenten zijn in hoge mate afhankelijk van de runtime-harness, bestaande uit de prompts, tools, geheugen en control flow die mediëren hoe een model waarneemt, redeneert en handelt. Toch blijven de hedendaagse harnesses grotendeels met de hand gemaakt en statisch: elk nieuw model of elke nieuwe taak vereist nog steeds maatwerk-scaffolding, en de rijke traces die tijdens de uitvoering worden geproduceerd, worden zelden gedistilleerd tot systematische verbetering. We introduceren HarnessX, een gieterij voor composable, adaptieve en evolueerbare agent-harnesses. HarnessX assembleert getypeerde harness-primitieven via een substitutie-algebra, past ze aan via AEGIS, een trace-gedreven multi-agent-evolutiemotor die is gebaseerd op een operationele spiegel tussen symbolische adaptatie en reinforcement learning, en sluit de harness-model-lus door trajecten om te zetten in zowel harness-updates als modeltrainingssignaal. Over vijf benchmarks (ALFWorld, GAIA, WebShop, tau^3-Bench en SWE-bench Verified) levert HarnessX een gemiddelde winst van +14,5% (tot +44,0%), waarbij de winsten het grootst zijn waar de baselines het laagst zijn. Deze resultaten suggereren dat vooruitgang van agenten niet alleen uit modelschaling hoeft te komen: het samenstellen en evolueren van runtime-interfaces op basis van uitvoeringsfeedback is een uitvoerbare en complementaire hefboom. De volledige codebase zal in een toekomstige release als open source worden uitgebracht.

English

AI agent performance depends critically on the runtime harness, comprising the prompts, tools, memory, and control flow that mediate how a model observes, reasons, and acts. Yet today's harnesses remain largely hand-crafted and static: each new model or task still demands bespoke scaffolding, and the rich traces produced during execution are rarely distilled back into systematic improvement. We introduce HarnessX, a foundry for composable, adaptive, and evolvable agent harnesses. HarnessX assembles typed harness primitives via a substitution algebra, adapts them through AEGIS, a trace-driven multi-agent evolution engine grounded in an operational mirror between symbolic adaptation and reinforcement learning, and closes the harness-model loop by turning trajectories into both harness updates and model training signal. Across five benchmarks (ALFWorld, GAIA, WebShop, tau^3-Bench, and SWE-bench Verified), HarnessX yields an average gain of +14.5% (up to +44.0%), with gains largest where baselines are lowest. These results suggest that agent progress need not come from model scaling alone: composing and evolving runtime interfaces from execution feedback is an actionable and complementary lever. The complete codebase will be open-sourced in a future release.