HarnessForge : Évolution conjointe du harnais et des politiques pour les systèmes d'agents adaptatifs

Résumé

Les agents LLM sont de plus en plus amenés à opérer dans des régimes de tâches hétérogènes qui exigent des paradigmes d'exécution distincts. Cela remet en cause les systèmes d'agents fixes et motive une méta-adaptation au niveau du système, au-delà des mises à jour isolées de composants. Bien que des travaux existants aient adapté un harnais externe ou entraîné les politiques de raisonnement sous-jacentes, l'adaptation complète du système reste insuffisamment caractérisée. L'espace d'adaptation entre structure et exécution est rarement rendu explicite, et la compatibilité entre le harnais externe et le raisonneur interne n'est pas optimisée conjointement. Nous proposons HarnessForge, un cadre méta-adaptatif pour l'évolution des systèmes d'agents LLM. HarnessForge formule un système d'agent comme une paire harnais-politique, définissant un espace d'adaptation stable qui sépare la structure d'exécution au niveau du harnais du comportement de raisonnement au niveau de la politique. Il effectue ensuite une co-évolution harnais-politique via un ajustement du harnais guidé par les fautes et un alignement de la politique conditionné par le harnais. Des expériences sur cinq bancs d'essai provenant de domaines divers montrent que HarnessForge améliore systématiquement les backbones Qwen3-4B et Qwen3-8B, surpassant les lignes de base ne modifiant que le harnais ou que la politique avec des gains allant jusqu'à 12,0 % par rapport à la meilleure ligne de base, et atteignant des compromis déploiement-efficacité favorables. Cela démontre que la co-évolution harnais-politique est efficace et que la compatibilité exécutable entre le harnais et la politique de raisonnement est essentielle pour l'adaptation des systèmes d'agents. Le code est disponible à l'adresse https://github.com/mingju-c/HarnessForge.

English

LLM agents are increasingly expected to operate across heterogeneous task regimes that require distinct execution paradigms. This challenges fixed agent systems and motivates system-level meta-adaptation beyond isolated component updates. While existing works have adapted external harness or trained underlying reasoning policies, full-system adaptation remains insufficiently characterized. The adaptation space between structure and execution is rarely made explicit, and the compatibility between the external harness and the internal reasoner is not optimized jointly. We propose HarnessForge, a meta-adaptive framework for evolving LLM agent systems. HarnessForge formulates an agent system as a harness--policy pair, defining a stable adaptation space that separates harness-level execution structure from policy-level reasoning behavior. It then performs harness--policy co-evolution through fault-guided harness tailoring and harness-conditioned policy alignment. Experiments across five benchmarks from diverse domains show that HarnessForge consistently improves both Qwen3-4B and Qwen3-8B backbones, outperforming harness-only and policy-only baselines with gains of up to 12.0\% over the strongest baseline and achieving favorable rollout-efficiency tradeoffs, demonstrating that harness--policy co-evolution is effective, and that executable compatibility between the harness and reasoning policy is essential for agent-system adaptation. The code is available at https://github.com/mingju-c/HarnessForge.