HarnessBridge: Controlador Bidireccional Aprendible para el Arnés de Agentes de LLM

Resumen

Los modelos de lenguaje de gran escala se despliegan cada vez más como agentes para tareas de horizonte prolongado, pero su rendimiento no solo está moldeado por la capacidad del modelo y el diseño del entorno, sino también por el arnés que media la interacción agente-entorno. Los arneses existentes son en gran medida diseñados manualmente, lo que dificulta su escalabilidad a medida que las trayectorias se alargan y las interacciones se vuelven más complejas. En este trabajo, nos preguntamos si el arnés puede ser generado por un módulo conectable aprendible que pueda entrenarse de manera extremo a extremo. Presentamos HarnessBridge, un controlador de arnés aprendible y ligero que parametriza la interfaz agente-entorno como una proyección bidireccional. HarnessBridge aprende dos proyecciones bidireccionales: la proyección de observación, que destila trayectorias brutas en estados compactos y relevantes para la decisión, y la proyección de acción, que convierte las acciones propuestas en transiciones ejecutables o rechazos basados en la trayectoria. Entrenamos HarnessBridge en un conjunto de datos de supervisión del arnés mediante un ajuste de instrucciones unificado. En Terminal-Bench~2.0 y SWE-bench Verified, HarnessBridge iguala o supera a los arneses especializados robustos, reduciendo sustancialmente el uso de tokens y la longitud de las trayectorias, y se generaliza desde generadores más pequeños a modelos comerciales más grandes.

English

Large language models are increasingly deployed as agents for long-horizon tasks, yet their performance is shaped not only by model capability and environment design, but also by the harness that mediates agent--environment interaction. Existing harnesses are largely manually engineered, making them difficult to scale as trajectories grow longer and interactions become more complex. In this work, we ask whether harness can be generated by a learnable plug-in module that can be trained in an end-to-end fashion. We introduce HarnessBridge, a lightweight learnable harness controller that parameterizes the agent--environment interface as a bidirectional projection. HarnessBridge learns two bidirectional projections: observation projection, which distills raw trajectories into compact, decision-relevant states, and action projection, which converts proposed actions into executable transitions or trajectory-grounded rejections. We train HarnessBridge on a harness supervision dataset via unified instruction tuning. On Terminal-Bench~2.0 and SWE-bench Verified, HarnessBridge matches or surpasses strong specialized harnesses while substantially reducing token usage and trajectory length, and generalizes from smaller generators to larger commercial models.