遡及的ハーネス最適化:軌道ロールアウトに対する自己選好によるLLMエージェントの改善
Retrospective Harness Optimization: Improving LLM Agents via Self-Preference over Trajectory Rollouts
June 4, 2026
著者: Wenbo Pan, Shujie Liu, Chin-Yew Lin, Jingying Zeng, Xianfeng Tang, Xiangyang Zhou, Yan Lu, Xiaohua Jia
cs.AI
要旨
AIエージェントは、複雑な問題を解決するために、スキル、ツール、ワークフローから構成されるハーネスに依存しています。このハーネスを継続的に改善することは、新しいタスクに適応するために不可欠です。しかし、既存の最適化手法は通常、グラウンドトゥルースの検証セットを必要としますが、そのようなラベル付きデータは実際の展開環境では入手が困難です。この問題に対処するため、我々はRetrospective Harness Optimization(RHO)を導入します。これは、過去のトラジェクトリのみを用いてエージェントのハーネスを最適化する自己教師あり手法です。具体的には、RHOは過去のトラジェクトリから多様なコアセットの困難なタスクを選択し、それらを並行して再解決します。エージェントはこれらのロールアウトを自己検証と自己一貫性を用いて分析し、その後、候補となるハーネスの更新を生成し、自身のペアワイズ自己選好によって最も効果的なものを選択します。我々はRHOを、ソフトウェアエンジニアリング、技術作業、知識作業にわたる3つの多様なドメインで評価します。特筆すべきことに、1回の最適化ラウンドにより、外部の採点なしでSWE-Bench Proの合格率が59%から78%に向上します。さらに、我々の分析は、RHOが以前の失敗モードを効果的にターゲットすることを示しています。その結果、最適化されたハーネスはエージェントの行動パターンを変化させ、長期的なセッション中により高い精度を維持します。
English
AI agents rely on a harness of skills, tools, and workflows to solve complex problems. Continually improving this harness is essential for adapting to new tasks. However, existing optimization methods typically require ground-truth validation sets, yet such labeled data is difficult to acquire in practical deployment settings. To address this problem, we introduce Retrospective Harness Optimization (RHO), a self-supervised method that optimizes the agent harness using only past trajectories. Specifically, RHO selects a diverse coreset of challenging tasks from past trajectories and re-solves them in parallel. The agent analyzes these rollouts using self-validation and self-consistency, then generates candidate harness updates and selects the most effective one by its own pairwise self-preference. We evaluate RHO across three diverse domains, spanning software engineering, technical work, and knowledge work. Notably, a single optimization round improves the pass rate on SWE-Bench Pro from 59% to 78% without any external grading. Furthermore, our analysis demonstrates that RHO effectively targets prior failure modes. As a result, the optimized harness alters the agent's behavior patterns and sustains higher accuracy during long-horizon sessions.