HarnessForge: Gemeinsame Steuerungs- und Richtlinienentwicklung für adaptive Agentensysteme

Zusammenfassung

Es wird zunehmend erwartet, dass LLM-Agenten über heterogene Aufgabenbereiche hinweg operieren, die unterschiedliche Ausführungsparadigmen erfordern. Dies stellt feste Agentensysteme vor Herausforderungen und motiviert eine systemweite Meta-Anpassung über isolierte Komponentenaktualisierungen hinaus. Während bestehende Arbeiten externe Kopplungen (Harness) angepasst oder zugrundeliegende Reasoning-Policys trainiert haben, bleibt die systemweite Anpassung unzureichend charakterisiert. Der Anpassungsraum zwischen Struktur und Ausführung wird selten explizit gemacht, und die Kompatibilität zwischen der externen Kopplung und dem internen Reasoner wird nicht gemeinsam optimiert. Wir schlagen HarnessForge vor, ein meta-adaptives Framework zur Evolution von LLM-Agentensystemen. HarnessForge formuliert ein Agentensystem als Kopplungs-Policy-Paar und definiert einen stabilen Anpassungsraum, der die Ausführungsstruktur auf Kopplungsebene vom Reasoning-Verhalten auf Policy-Ebene trennt. Anschließend führt es eine Kopplungs-Policy-Koevolution durch fehlergesteuerte Kopplungsanpassung und kopplungsbedingte Policy-Angleichung durch. Experimente über fünf Benchmarks aus verschiedenen Bereichen zeigen, dass HarnessForge sowohl die Qwen3-4B- als auch die Qwen3-8B-Backbones konsistent verbessert, die reinen Kopplungs- und Policy-Baselines mit Verbesserungen von bis zu 12,0 % gegenüber der stärksten Baseline übertrifft und günstige Abwägungen zwischen Rollout und Effizienz erzielt. Dies zeigt, dass die Kopplungs-Policy-Koevolution effektiv ist und dass die ausführbare Kompatibilität zwischen Kopplung und Reasoning-Policy für die Anpassung des Agentensystems wesentlich ist. Der Code ist verfügbar unter https://github.com/mingju-c/HarnessForge.

English

LLM agents are increasingly expected to operate across heterogeneous task regimes that require distinct execution paradigms. This challenges fixed agent systems and motivates system-level meta-adaptation beyond isolated component updates. While existing works have adapted external harness or trained underlying reasoning policies, full-system adaptation remains insufficiently characterized. The adaptation space between structure and execution is rarely made explicit, and the compatibility between the external harness and the internal reasoner is not optimized jointly. We propose HarnessForge, a meta-adaptive framework for evolving LLM agent systems. HarnessForge formulates an agent system as a harness--policy pair, defining a stable adaptation space that separates harness-level execution structure from policy-level reasoning behavior. It then performs harness--policy co-evolution through fault-guided harness tailoring and harness-conditioned policy alignment. Experiments across five benchmarks from diverse domains show that HarnessForge consistently improves both Qwen3-4B and Qwen3-8B backbones, outperforming harness-only and policy-only baselines with gains of up to 12.0\% over the strongest baseline and achieving favorable rollout-efficiency tradeoffs, demonstrating that harness--policy co-evolution is effective, and that executable compatibility between the harness and reasoning policy is essential for agent-system adaptation. The code is available at https://github.com/mingju-c/HarnessForge.