ХарнессX: Компонуемая, адаптивная и эволюционируемая фабрика обвязки агентов
HarnessX: A Composable, Adaptive, and Evolvable Agent Harness Foundry
June 12, 2026
Авторы: Tingyang Chen, Shuo Lu, Kang Zhao, Weicheng Meng, Hanlin Teng, Tianhao Li, Chao Li, Xule Liu, Jian Liang, Zhizhong Zhang, Yuan Xie, Heng Qu, Kun Shao, Jian Luan
cs.AI
Аннотация
Производительность ИИ-агентов критически зависит от исполнительной обвязки (runtime harness), включающей промпты, инструменты, память и поток управления, которые опосредуют то, как модель наблюдает, рассуждает и действует. Однако сегодняшние обвязки в значительной степени остаются создаваемыми вручную и статичными: каждая новая модель или задача по-прежнему требует индивидуальной надстройки, а богатые трассы, порождаемые в процессе выполнения, редко перерабатываются в систематические улучшения. Мы представляем HarnessX — фабрику для компоновки адаптивных и развивающихся агентских обвязок. HarnessX собирает типизированные примитивы обвязки посредством алгебры подстановок, адаптирует их через AEGIS — многоагентный эволюционный движок, управляемый трассами и основанный на операциональном зеркале между символьной адаптацией и обучением с подкреплением, — и замыкает петлю обвязка-модель, преобразуя траектории как в обновления обвязки, так и в сигнал обучения модели. На пяти бенчмарках (ALFWorld, GAIA, WebShop, tau³-Bench и SWE-bench Verified) HarnessX достигает среднего прироста +14,5% (до +44,0%), причем наибольший прирост наблюдается там, где базовые показатели наименьшие. Эти результаты показывают, что прогресс агентов не обязательно достигается только за счет масштабирования моделей: компоновка и эволюция интерфейсов выполнения на основе обратной связи от исполнения является действенным и взаимодополняющим рычагом. Полный код будет опубликован в открытом доступе в одном из будущих релизов.
English
AI agent performance depends critically on the runtime harness, comprising the prompts, tools, memory, and control flow that mediate how a model observes, reasons, and acts. Yet today's harnesses remain largely hand-crafted and static: each new model or task still demands bespoke scaffolding, and the rich traces produced during execution are rarely distilled back into systematic improvement. We introduce HarnessX, a foundry for composable, adaptive, and evolvable agent harnesses. HarnessX assembles typed harness primitives via a substitution algebra, adapts them through AEGIS, a trace-driven multi-agent evolution engine grounded in an operational mirror between symbolic adaptation and reinforcement learning, and closes the harness-model loop by turning trajectories into both harness updates and model training signal. Across five benchmarks (ALFWorld, GAIA, WebShop, tau^3-Bench, and SWE-bench Verified), HarnessX yields an average gain of +14.5% (up to +44.0%), with gains largest where baselines are lowest. These results suggest that agent progress need not come from model scaling alone: composing and evolving runtime interfaces from execution feedback is an actionable and complementary lever. The complete codebase will be open-sourced in a future release.