HarnessBridge: Erlernbarer bidirektionaler Controller für das LLM-Agenten-Harness

Zusammenfassung

Große Sprachmodelle werden zunehmend als Agenten für langfristige Aufgaben eingesetzt, ihre Leistung wird jedoch nicht nur durch die Modellfähigkeit und die Umgebungsgestaltung bestimmt, sondern auch durch die Kopplung, die die Interaktion zwischen Agent und Umgebung vermittelt. Bestehende Kopplungen sind größtenteils manuell entwickelt, was ihre Skalierung erschwert, wenn Trajektorien länger und Interaktionen komplexer werden. In dieser Arbeit stellen wir die Frage, ob Kopplungen durch ein lernbares Plug-in-Modul erzeugt werden können, das end-to-end trainierbar ist. Wir führen HarnessBridge ein, eine leichtgewichtige, lernbare Kopplungssteuerung, die die Schnittstelle zwischen Agent und Umgebung als bidirektionale Projektion parametrisiert. HarnessBridge lernt zwei bidirektionale Projektionen: die Beobachtungsprojektion, die rohe Trajektorien in kompakte, entscheidungsrelevante Zustände destilliert, und die Aktionsprojektion, die vorgeschlagene Aktionen in ausführbare Übergänge oder trajektoriegestützte Zurückweisungen umwandelt. Wir trainieren HarnessBridge auf einem Kopplungs-Supervisionsdatensatz mittels vereinheitlichtem Instruktions-Tuning. Auf Terminal-Bench~2.0 und SWE-bench Verified erreicht oder übertrifft HarnessBridge leistungsstarke spezialisierte Kopplungen, während der Token-Verbrauch und die Trajektorienlänge erheblich reduziert werden, und es generalisiert von kleineren Generatoren auf größere kommerzielle Modelle.

English

Large language models are increasingly deployed as agents for long-horizon tasks, yet their performance is shaped not only by model capability and environment design, but also by the harness that mediates agent--environment interaction. Existing harnesses are largely manually engineered, making them difficult to scale as trajectories grow longer and interactions become more complex. In this work, we ask whether harness can be generated by a learnable plug-in module that can be trained in an end-to-end fashion. We introduce HarnessBridge, a lightweight learnable harness controller that parameterizes the agent--environment interface as a bidirectional projection. HarnessBridge learns two bidirectional projections: observation projection, which distills raw trajectories into compact, decision-relevant states, and action projection, which converts proposed actions into executable transitions or trajectory-grounded rejections. We train HarnessBridge on a harness supervision dataset via unified instruction tuning. On Terminal-Bench~2.0 and SWE-bench Verified, HarnessBridge matches or surpasses strong specialized harnesses while substantially reducing token usage and trajectory length, and generalizes from smaller generators to larger commercial models.