HarnessBridge: Controlador Bidirecional Aprendível para Arnes de Agente LLM

Resumo

Modelos de linguagem de grande escala estão sendo cada vez mais implantados como agentes para tarefas de longo horizonte, no entanto, seu desempenho é moldado não apenas pela capacidade do modelo e pelo design do ambiente, mas também pelo arnês que media a interação agente-ambiente. Os arneses existentes são em grande parte projetados manualmente, dificultando sua escalabilidade à medida que as trajetórias se tornam mais longas e as interações mais complexas. Neste trabalho, investigamos se o arnês pode ser gerado por um módulo plug-in aprendível, treinável de forma ponta a ponta. Apresentamos o HarnessBridge, um controlador de arnês leve e aprendível que parametriza a interface agente-ambiente como uma projeção bidirecional. O HarnessBridge aprende duas projeções bidirecionais: a projeção de observação, que destila trajetórias brutas em estados compactos e relevantes para a decisão; e a projeção de ação, que converte ações propostas em transições executáveis ou rejeições fundamentadas na trajetória. Treinamos o HarnessBridge em um conjunto de dados de supervisão de arnês por meio de ajuste de instrução unificado. No Terminal-Bench~2.0 e SWE-bench Verified, o HarnessBridge iguala ou supera arneses especializados robustos, ao mesmo tempo que reduz substancialmente o uso de tokens e o comprimento das trajetórias, e generaliza de geradores menores para modelos comerciais maiores.

English

Large language models are increasingly deployed as agents for long-horizon tasks, yet their performance is shaped not only by model capability and environment design, but also by the harness that mediates agent--environment interaction. Existing harnesses are largely manually engineered, making them difficult to scale as trajectories grow longer and interactions become more complex. In this work, we ask whether harness can be generated by a learnable plug-in module that can be trained in an end-to-end fashion. We introduce HarnessBridge, a lightweight learnable harness controller that parameterizes the agent--environment interface as a bidirectional projection. HarnessBridge learns two bidirectional projections: observation projection, which distills raw trajectories into compact, decision-relevant states, and action projection, which converts proposed actions into executable transitions or trajectory-grounded rejections. We train HarnessBridge on a harness supervision dataset via unified instruction tuning. On Terminal-Bench~2.0 and SWE-bench Verified, HarnessBridge matches or surpasses strong specialized harnesses while substantially reducing token usage and trajectory length, and generalizes from smaller generators to larger commercial models.