HarnessBridge : Contrôleur bidirectionnel apprenable pour harnais d'agent LLM

Résumé

Les grands modèles de langage sont de plus en plus déployés en tant qu'agents pour des tâches à long horizon, mais leurs performances sont façonnées non seulement par la capacité du modèle et la conception de l'environnement, mais aussi par le harnais qui médiatise l'interaction agent-environnement. Les harnais existants sont largement conçus manuellement, ce qui les rend difficiles à passer à l'échelle à mesure que les trajectoires s'allongent et que les interactions deviennent plus complexes. Dans ce travail, nous nous demandons si le harnais peut être généré par un module enfichable entraînable de bout en bout. Nous introduisons HarnessBridge, un contrôleur de harnais léger et apprenable qui paramétrise l'interface agent-environnement comme une projection bidirectionnelle. HarnessBridge apprend deux projections bidirectionnelles : la projection d'observation, qui distille les trajectoires brutes en états compacts et pertinents pour la décision, et la projection d'action, qui convertit les actions proposées en transitions exécutables ou en rejets ancrés dans la trajectoire. Nous entraînons HarnessBridge sur un ensemble de données de supervision de harnais via un ajustement unifié par instructions. Sur Terminal-Bench~2.0 et SWE-bench Verified, HarnessBridge atteint ou dépasse les harnais spécialisés performants tout en réduisant considérablement l'utilisation de tokens et la longueur des trajectoires, et se généralise des générateurs plus petits aux modèles commerciaux plus grands.

English

Large language models are increasingly deployed as agents for long-horizon tasks, yet their performance is shaped not only by model capability and environment design, but also by the harness that mediates agent--environment interaction. Existing harnesses are largely manually engineered, making them difficult to scale as trajectories grow longer and interactions become more complex. In this work, we ask whether harness can be generated by a learnable plug-in module that can be trained in an end-to-end fashion. We introduce HarnessBridge, a lightweight learnable harness controller that parameterizes the agent--environment interface as a bidirectional projection. HarnessBridge learns two bidirectional projections: observation projection, which distills raw trajectories into compact, decision-relevant states, and action projection, which converts proposed actions into executable transitions or trajectory-grounded rejections. We train HarnessBridge on a harness supervision dataset via unified instruction tuning. On Terminal-Bench~2.0 and SWE-bench Verified, HarnessBridge matches or surpasses strong specialized harnesses while substantially reducing token usage and trajectory length, and generalizes from smaller generators to larger commercial models.