HarnessForge: gezamenlijke harness- en beleidsevolutie voor adaptieve agentsystemen

Samenvatting

LLM-agenten worden steeds vaker verwacht te opereren over heterogene taakregimes die verschillende uitvoeringsparadigma's vereisen. Dit vormt een uitdaging voor vaste agentsystemen en motiveert systeem-niveau meta-adaptatie die verder gaat dan geïsoleerde componentupdates. Hoewel bestaande werken externe harness hebben aangepast of onderliggende redeneerbeleid hebben getraind, blijft volledige systeemadaptatie onvoldoende gekarakteriseerd. De adaptatieruimte tussen structuur en uitvoering wordt zelden expliciet gemaakt, en de compatibiliteit tussen de externe harness en de interne redeneerder wordt niet gezamenlijk geoptimaliseerd. Wij stellen HarnessForge voor, een meta-adaptief raamwerk voor het evolueren van LLM-agentsystemen. HarnessForge formuleert een agentsysteem als een harness–beleidspaar, en definieert een stabiele adaptatieruimte die de uitvoeringsstructuur op harness-niveau scheidt van het redeneergedrag op beleidsniveau. Vervolgens voert het harness–beleid co-evolutie uit via foutgeleide harness-aanpassing en harness-afhankelijke beleidsuitlijning. Experimenten over vijf benchmarks uit diverse domeinen tonen aan dat HarnessForge zowel Qwen3-4B als Qwen3-8B backbones consistent verbetert, waarbij het beter presteert dan harness-only en policy-only baselines met winsten tot 12,0% ten opzichte van de sterkste baseline en gunstige rollout-efficiëntie-afwegingen realiseert. Dit toont aan dat harness–beleid co-evolutie effectief is en dat uitvoerbare compatibiliteit tussen de harness en het redeneerbeleid essentieel is voor agentsysteemadaptatie. De code is beschikbaar op https://github.com/mingju-c/HarnessForge.

English

LLM agents are increasingly expected to operate across heterogeneous task regimes that require distinct execution paradigms. This challenges fixed agent systems and motivates system-level meta-adaptation beyond isolated component updates. While existing works have adapted external harness or trained underlying reasoning policies, full-system adaptation remains insufficiently characterized. The adaptation space between structure and execution is rarely made explicit, and the compatibility between the external harness and the internal reasoner is not optimized jointly. We propose HarnessForge, a meta-adaptive framework for evolving LLM agent systems. HarnessForge formulates an agent system as a harness--policy pair, defining a stable adaptation space that separates harness-level execution structure from policy-level reasoning behavior. It then performs harness--policy co-evolution through fault-guided harness tailoring and harness-conditioned policy alignment. Experiments across five benchmarks from diverse domains show that HarnessForge consistently improves both Qwen3-4B and Qwen3-8B backbones, outperforming harness-only and policy-only baselines with gains of up to 12.0\% over the strongest baseline and achieving favorable rollout-efficiency tradeoffs, demonstrating that harness--policy co-evolution is effective, and that executable compatibility between the harness and reasoning policy is essential for agent-system adaptation. The code is available at https://github.com/mingju-c/HarnessForge.