HarnessX: Una Fundición de Arneses de Agentes Componible, Adaptativa y Evolucionable

Resumen

El rendimiento de los agentes de IA depende críticamente del entorno de ejecución (harness), que comprende las indicaciones, herramientas, memoria y flujo de control que median la forma en que un modelo observa, razona y actúa. Sin embargo, los entornos actuales siguen siendo en gran medida artesanales y estáticos: cada nuevo modelo o tarea aún exige un andamiaje personalizado, y las ricas trazas producidas durante la ejecución rara vez se destilan para lograr una mejora sistemática. Presentamos HarnessX, una fundición para entornos de agente componibles, adaptables y evolucionables. HarnessX ensambla primitivas de entorno tipificadas mediante un álgebra de sustitución, las adapta a través de AEGIS, un motor de evolución multiagente guiado por trazas fundamentado en un espejo operacional entre la adaptación simbólica y el aprendizaje por refuerzo, y cierra el bucle entorno-modelo al convertir las trayectorias tanto en actualizaciones del entorno como en señales de entrenamiento del modelo. En cinco puntos de referencia (ALFWorld, GAIA, WebShop, tau^3-Bench y SWE-bench Verified), HarnessX logra una ganancia promedio de +14.5% (hasta +44.0%), con las mayores ganancias donde las líneas de base son más bajas. Estos resultados sugieren que el progreso de los agentes no necesita provenir únicamente del escalamiento de modelos: componer y evolucionar interfaces de ejecución a partir de la retroalimentación de la ejecución es una palanca viable y complementaria. El código base completo será publicado como código abierto en una versión futura.

English

AI agent performance depends critically on the runtime harness, comprising the prompts, tools, memory, and control flow that mediate how a model observes, reasons, and acts. Yet today's harnesses remain largely hand-crafted and static: each new model or task still demands bespoke scaffolding, and the rich traces produced during execution are rarely distilled back into systematic improvement. We introduce HarnessX, a foundry for composable, adaptive, and evolvable agent harnesses. HarnessX assembles typed harness primitives via a substitution algebra, adapts them through AEGIS, a trace-driven multi-agent evolution engine grounded in an operational mirror between symbolic adaptation and reinforcement learning, and closes the harness-model loop by turning trajectories into both harness updates and model training signal. Across five benchmarks (ALFWorld, GAIA, WebShop, tau^3-Bench, and SWE-bench Verified), HarnessX yields an average gain of +14.5% (up to +44.0%), with gains largest where baselines are lowest. These results suggest that agent progress need not come from model scaling alone: composing and evolving runtime interfaces from execution feedback is an actionable and complementary lever. The complete codebase will be open-sourced in a future release.