HarnessX : Une fabrique de harnais d'agent composable, adaptative et évolutive.

Résumé

La performance des agents d’IA dépend crucialement du harnais d’exécution, comprenant les prompts, outils, mémoire et flux de contrôle qui médiatisent la façon dont un modèle observe, raisonne et agit. Pourtant, les harnais actuels restent largement fabriqués à la main et statiques : chaque nouveau modèle ou tâche exige encore un échafaudage sur mesure, et les riches traces produites pendant l’exécution sont rarement distillées en amélioration systématique. Nous présentons HarnessX, une fonderie de harnais d’agents composables, adaptatifs et évolutifs. HarnessX assemble des primitives de harnais typées via une algèbre de substitution, les adapte grâce à AEGIS, un moteur d’évolution multi-agent piloté par traces et ancré dans un miroir opérationnel entre adaptation symbolique et apprentissage par renforcement, et ferme la boucle harnais-modèle en transformant les trajectoires à la fois en mises à jour du harnais et en signal d’entraînement du modèle. Sur cinq benchmarks (ALFWorld, GAIA, WebShop, tau^3-Bench et SWE-bench Verified), HarnessX obtient un gain moyen de +14,5 % (jusqu’à +44,0 %), les gains les plus importants là où les lignes de base sont les plus basses. Ces résultats suggèrent que le progrès des agents ne doit pas nécessairement provenir du seul passage à l’échelle des modèles : composer et faire évoluer les interfaces d’exécution à partir du retour d’exécution est un levier actionnable et complémentaire. L’intégralité du code sera publiée en open source dans une version ultérieure.

English

AI agent performance depends critically on the runtime harness, comprising the prompts, tools, memory, and control flow that mediate how a model observes, reasons, and acts. Yet today's harnesses remain largely hand-crafted and static: each new model or task still demands bespoke scaffolding, and the rich traces produced during execution are rarely distilled back into systematic improvement. We introduce HarnessX, a foundry for composable, adaptive, and evolvable agent harnesses. HarnessX assembles typed harness primitives via a substitution algebra, adapts them through AEGIS, a trace-driven multi-agent evolution engine grounded in an operational mirror between symbolic adaptation and reinforcement learning, and closes the harness-model loop by turning trajectories into both harness updates and model training signal. Across five benchmarks (ALFWorld, GAIA, WebShop, tau^3-Bench, and SWE-bench Verified), HarnessX yields an average gain of +14.5% (up to +44.0%), with gains largest where baselines are lowest. These results suggest that agent progress need not come from model scaling alone: composing and evolving runtime interfaces from execution feedback is an actionable and complementary lever. The complete codebase will be open-sourced in a future release.