Ретроспективная оптимизация обвязки: улучшение LLM-агентов с помощью самопредпочтения при траекторных развертках

Аннотация

AI-агенты полагаются на оснастку из навыков, инструментов и рабочих процессов для решения сложных задач. Постоянное улучшение этой оснастки необходимо для адаптации к новым задачам. Однако существующие методы оптимизации обычно требуют эталонных валидационных наборов, но такие размеченные данные трудно получить в условиях практического развертывания. Для решения этой проблемы мы представляем метод ретроспективной оптимизации оснастки (Retrospective Harness Optimization, RHO) — самонастраиваемый метод, который оптимизирует оснастку агента, используя только прошлые траектории. В частности, RHO выбирает разнообразное компактное подмножество сложных задач из прошлых траекторий и решает их заново параллельно. Агент анализирует эти прогоны с помощью самопроверки и самосогласованности, затем генерирует кандидатные обновления оснастки и выбирает наиболее эффективное на основе собственного попарного самопредпочтения. Мы оцениваем RHO в трех различных областях, охватывающих разработку программного обеспечения, техническую работу и интеллектуальный труд. Примечательно, что один раунд оптимизации повышает процент успешных прохождений на SWE-Bench Pro с 59% до 78% без какого-либо внешнего оценивания. Кроме того, наш анализ демонстрирует, что RHO эффективно нацеливается на предыдущие режимы отказов. В результате оптимизированная оснастка изменяет поведенческие паттерны агента и поддерживает более высокую точность в ходе длительных сеансов.

English

AI agents rely on a harness of skills, tools, and workflows to solve complex problems. Continually improving this harness is essential for adapting to new tasks. However, existing optimization methods typically require ground-truth validation sets, yet such labeled data is difficult to acquire in practical deployment settings. To address this problem, we introduce Retrospective Harness Optimization (RHO), a self-supervised method that optimizes the agent harness using only past trajectories. Specifically, RHO selects a diverse coreset of challenging tasks from past trajectories and re-solves them in parallel. The agent analyzes these rollouts using self-validation and self-consistency, then generates candidate harness updates and selects the most effective one by its own pairwise self-preference. We evaluate RHO across three diverse domains, spanning software engineering, technical work, and knowledge work. Notably, a single optimization round improves the pass rate on SWE-Bench Pro from 59% to 78% without any external grading. Furthermore, our analysis demonstrates that RHO effectively targets prior failure modes. As a result, the optimized harness alters the agent's behavior patterns and sustains higher accuracy during long-horizon sessions.