Адаптивная автообвязка: непрерывное самосовершенствование для развертывания агентных систем на открытых потоках задач

Аннотация

Системы автоматической обвязки (Auto-Harness), такие как A-Evolve, GEPA и Meta-Harness, улучшают LLM-агентов путём оптимизации промптов, навыков, инструментов, памяти и вспомогательной инфраструктуры на основе обратной связи от выполнения, однако их оценка обычно проводится на фиксированных офлайн-бенчмарках. В реальных развёртываниях, напротив, возникают потоки открытых задач: истории растут без фиксированной конечной точки, разнородные задачи требуют разных обвязок, а распределение проблем смещается со временем. Эти трудности делают одну многократно и плотно обновляемую обвязку хрупкой, что приводит к снижению производительности: точность достигает пика на ранних этапах и затем падает. Это мотивирует необходимость устойчивого построения обвязки с позадачной адаптацией. Мы представляем Adaptive Auto-Harness — фреймворк и систему для таких потоков. Фреймворк декомпозирует разрыв до эталонной обвязки (oracle harness) на эволюционные потери (evolution loss) и потери адаптации (adaptation loss). Система устраняет эти потери с помощью многоагентного эволюционного модуля, сохраняющего состояние (stateful multi-agent evolver), дерева обвязки с маршрутизацией во время решения (solve-time routing) и точек ручного управления (human-steering hooks) для случаев, когда история не содержит необходимого сигнала. На потоках рынка предсказаний, соревнований по безопасности и прогнозирования событий Adaptive Auto-Harness превосходит пять существующих базовых подходов автоматической обвязки, а анализ абляций показывает, что улучшения достигаются за счёт лучшего построения, маршрутизации или целенаправленного ручного управления. Код доступен по адресу https://github.com/A-EVO-Lab/AdaptiveHarness.

English

Auto-harness systems such as A-Evolve, GEPA, and Meta-Harness improve LLM agents by optimizing prompts, skills, tools, memories, and supporting infrastructure from execution feedback, but they are typically evaluated on fixed offline benchmarks. Real deployments instead present open-ended task streams: histories grow without a fixed endpoint, heterogeneous tasks require different harnesses, and problem distributions shift over time. These challenges make a single repeatedly and densely updated harness brittle, causing performance degradation as accuracy peaks early and then declines. This motivates sustained harness construction with task-wise adaptation. We introduce Adaptive Auto-Harness, a framework and system for such streams. The framework decomposes the gap to an oracle harness into evolution loss and adaptation loss. The system addresses these losses with a stateful multi-agent evolver, a harness tree with solve-time routing, and human-steering hooks for cases where history lacks the needed signal. Across prediction-market, security-competition, and event-forecasting streams, Adaptive Auto-Harness outperforms five existing auto-harness baselines and ablations attribute gains to better construction, routing, or targeted human steering. Code is available in https://github.com/A-EVO-Lab/AdaptiveHarness .