HarnessBridge: Leerbare bidirectionele controller voor LLM Agent Harness

Samenvatting

Grote taalmodellen worden steeds vaker ingezet als agenten voor langetermijn taken, maar hun prestaties worden niet alleen bepaald door de capaciteit van het model en het ontwerp van de omgeving, maar ook door het harnas dat de interactie tussen agent en omgeving medieert. Bestaande harnassen zijn grotendeels handmatig ontworpen, waardoor ze moeilijk schaalbaar zijn naarmate trajecten langer worden en interacties complexer. In dit werk onderzoeken we of een harnas gegenereerd kan worden door een leerbare plug-in module die end-to-end getraind kan worden. We introduceren HarnessBridge, een lichtgewicht leerbare harnascontroller die de agent-omgeving interface parametriseert als een bidirectionele projectie. HarnessBridge leert twee bidirectionele projecties: observatieprojectie, die ruwe trajecten distilleert naar compacte, beslissingsrelevante toestanden, en actieprojectie, die voorgestelde acties omzet in uitvoerbare overgangen of baangebaseerde afwijzingen. We trainen HarnessBridge op een harnas-supervisiedataset via uniforme instructie-afstemming. Op Terminal-Bench 2.0 en SWE-bench Verified evenaart of overtreft HarnessBridge sterke gespecialiseerde harnassen, terwijl het tokenverbruik en de baanglengte aanzienlijk worden gereduceerd, en het generaliseert van kleinere generators naar grotere commerciële modellen.

English

Large language models are increasingly deployed as agents for long-horizon tasks, yet their performance is shaped not only by model capability and environment design, but also by the harness that mediates agent--environment interaction. Existing harnesses are largely manually engineered, making them difficult to scale as trajectories grow longer and interactions become more complex. In this work, we ask whether harness can be generated by a learnable plug-in module that can be trained in an end-to-end fashion. We introduce HarnessBridge, a lightweight learnable harness controller that parameterizes the agent--environment interface as a bidirectional projection. HarnessBridge learns two bidirectional projections: observation projection, which distills raw trajectories into compact, decision-relevant states, and action projection, which converts proposed actions into executable transitions or trajectory-grounded rejections. We train HarnessBridge on a harness supervision dataset via unified instruction tuning. On Terminal-Bench~2.0 and SWE-bench Verified, HarnessBridge matches or surpasses strong specialized harnesses while substantially reducing token usage and trajectory length, and generalizes from smaller generators to larger commercial models.