ХарнессX: Компонуемая, адаптивная и эволюционируемая фабрика обвязки агентов

Аннотация

Производительность ИИ-агентов критически зависит от исполнительной обвязки (runtime harness), включающей промпты, инструменты, память и поток управления, которые опосредуют то, как модель наблюдает, рассуждает и действует. Однако сегодняшние обвязки в значительной степени остаются создаваемыми вручную и статичными: каждая новая модель или задача по-прежнему требует индивидуальной надстройки, а богатые трассы, порождаемые в процессе выполнения, редко перерабатываются в систематические улучшения. Мы представляем HarnessX — фабрику для компоновки адаптивных и развивающихся агентских обвязок. HarnessX собирает типизированные примитивы обвязки посредством алгебры подстановок, адаптирует их через AEGIS — многоагентный эволюционный движок, управляемый трассами и основанный на операциональном зеркале между символьной адаптацией и обучением с подкреплением, — и замыкает петлю обвязка-модель, преобразуя траектории как в обновления обвязки, так и в сигнал обучения модели. На пяти бенчмарках (ALFWorld, GAIA, WebShop, tau³-Bench и SWE-bench Verified) HarnessX достигает среднего прироста +14,5% (до +44,0%), причем наибольший прирост наблюдается там, где базовые показатели наименьшие. Эти результаты показывают, что прогресс агентов не обязательно достигается только за счет масштабирования моделей: компоновка и эволюция интерфейсов выполнения на основе обратной связи от исполнения является действенным и взаимодополняющим рычагом. Полный код будет опубликован в открытом доступе в одном из будущих релизов.

English

AI agent performance depends critically on the runtime harness, comprising the prompts, tools, memory, and control flow that mediate how a model observes, reasons, and acts. Yet today's harnesses remain largely hand-crafted and static: each new model or task still demands bespoke scaffolding, and the rich traces produced during execution are rarely distilled back into systematic improvement. We introduce HarnessX, a foundry for composable, adaptive, and evolvable agent harnesses. HarnessX assembles typed harness primitives via a substitution algebra, adapts them through AEGIS, a trace-driven multi-agent evolution engine grounded in an operational mirror between symbolic adaptation and reinforcement learning, and closes the harness-model loop by turning trajectories into both harness updates and model training signal. Across five benchmarks (ALFWorld, GAIA, WebShop, tau^3-Bench, and SWE-bench Verified), HarnessX yields an average gain of +14.5% (up to +44.0%), with gains largest where baselines are lowest. These results suggest that agent progress need not come from model scaling alone: composing and evolving runtime interfaces from execution feedback is an actionable and complementary lever. The complete codebase will be open-sourced in a future release.