HarnessX: Ein komponierbarer, adaptiver und evolvierbarer Agent-Harness-Baukasten

Zusammenfassung

Die Leistung von KI-Agenten hängt entscheidend vom Laufzeit-Harness ab, bestehend aus den Prompts, Werkzeugen, dem Speicher und dem Kontrollfluss, die vermitteln, wie ein Modell beobachtet, schlussfolgert und handelt. Heutige Harnesses sind jedoch weitgehend handgefertigt und statisch: Jede neue Modell- oder Aufgabengeneration erfordert weiterhin maßgeschneiderte Gerüste, und die während der Ausführung erzeugten reichhaltigen Spuren werden selten in systematische Verbesserungen einfließen gelassen. Wir stellen HarnessX vor, eine Gießerei für komponierbare, adaptive und entwicklungsfähige Agenten-Harnesses. HarnessX setzt typisierte Harness-Primitive mittels einer Substitutionsalgebra zusammen, passt sie durch AEGIS an, eine spurgesteuerte Multiagenten-Evolutionsmaschine, die auf einem operationellen Spiegel zwischen symbolischer Adaptation und Verstärkungslernen basiert, und schließt den Harness-Modell-Kreislauf, indem Trajektorien sowohl in Harness-Updates als auch in Modell-Trainingssignale umgewandelt werden. Über fünf Benchmarks hinweg (ALFWorld, GAIA, WebShop, tau^3-Bench und SWE-bench Verified) erzielt HarnessX eine durchschnittliche Steigerung von +14,5 % (bis zu +44,0 %), wobei die größten Zuwächse dort auftreten, wo die Baselines am niedrigsten sind. Diese Ergebnisse legen nahe, dass der Fortschritt bei Agenten nicht allein aus der Skalierung von Modellen kommen muss: Das Komponieren und Weiterentwickeln von Laufzeitschnittstellen aus Ausführungsrückmeldungen ist ein umsetzbarer und komplementärer Hebel. Die vollständige Codebasis wird in einer zukünftigen Version als Open Source veröffentlicht.

English

AI agent performance depends critically on the runtime harness, comprising the prompts, tools, memory, and control flow that mediate how a model observes, reasons, and acts. Yet today's harnesses remain largely hand-crafted and static: each new model or task still demands bespoke scaffolding, and the rich traces produced during execution are rarely distilled back into systematic improvement. We introduce HarnessX, a foundry for composable, adaptive, and evolvable agent harnesses. HarnessX assembles typed harness primitives via a substitution algebra, adapts them through AEGIS, a trace-driven multi-agent evolution engine grounded in an operational mirror between symbolic adaptation and reinforcement learning, and closes the harness-model loop by turning trajectories into both harness updates and model training signal. Across five benchmarks (ALFWorld, GAIA, WebShop, tau^3-Bench, and SWE-bench Verified), HarnessX yields an average gain of +14.5% (up to +44.0%), with gains largest where baselines are lowest. These results suggest that agent progress need not come from model scaling alone: composing and evolving runtime interfaces from execution feedback is an actionable and complementary lever. The complete codebase will be open-sourced in a future release.