HarnessForge: Совместная эволюция обвязки и политик для адаптивных агентных систем

Аннотация

Агенты на основе больших языковых моделей (LLM) всё чаще сталкиваются с необходимостью работы в гетерогенных режимах задач, требующих различных парадигм выполнения. Это ставит под сомнение фиксированные агентные системы и стимулирует системную мета-адаптацию, выходящую за рамки изолированных обновлений компонентов. Хотя существующие работы адаптируют внешнюю обвязку (harness) или обучают лежащие в основе политики рассуждений, полносистемная адаптация остаётся недостаточно охарактеризованной. Пространство адаптации между структурой и выполнением редко делается явным, а совместимость между внешней обвязкой и внутренним механизмом рассуждений не оптимизируется совместно. Мы предлагаем HarnessForge — мета-адаптивный фреймворк для эволюции агентных систем на основе LLM. HarnessForge формулирует агентную систему как пару «обвязка–политика», определяя стабильное пространство адаптации, разделяющее структуру выполнения на уровне обвязки и поведение рассуждений на уровне политики. Затем он выполняет совместную эволюцию обвязки и политики посредством настройки обвязки под управлением ошибок и согласования политики с учётом обвязки. Эксперименты на пяти эталонных наборах данных из различных областей показывают, что HarnessForge последовательно улучшает как базовые модели Qwen3-4B, так и Qwen3-8B, превосходя базовые линии, использующие только обвязку или только политику, с приростом до 12,0% по сравнению с сильнейшей базовой линией, а также достигает выгодного компромисса между производительностью и эффективностью развёртывания. Это демонстрирует, что совместная эволюция обвязки и политики эффективна, и что исполнительная совместимость между обвязкой и политикой рассуждений необходима для адаптации агентной системы. Код доступен по адресу https://github.com/mingju-c/HarnessForge.

English

LLM agents are increasingly expected to operate across heterogeneous task regimes that require distinct execution paradigms. This challenges fixed agent systems and motivates system-level meta-adaptation beyond isolated component updates. While existing works have adapted external harness or trained underlying reasoning policies, full-system adaptation remains insufficiently characterized. The adaptation space between structure and execution is rarely made explicit, and the compatibility between the external harness and the internal reasoner is not optimized jointly. We propose HarnessForge, a meta-adaptive framework for evolving LLM agent systems. HarnessForge formulates an agent system as a harness--policy pair, defining a stable adaptation space that separates harness-level execution structure from policy-level reasoning behavior. It then performs harness--policy co-evolution through fault-guided harness tailoring and harness-conditioned policy alignment. Experiments across five benchmarks from diverse domains show that HarnessForge consistently improves both Qwen3-4B and Qwen3-8B backbones, outperforming harness-only and policy-only baselines with gains of up to 12.0\% over the strongest baseline and achieving favorable rollout-efficiency tradeoffs, demonstrating that harness--policy co-evolution is effective, and that executable compatibility between the harness and reasoning policy is essential for agent-system adaptation. The code is available at https://github.com/mingju-c/HarnessForge.