Optimisation rétrospective par harnais : amélioration des agents LLM via l'auto-préférence sur les déploiements de trajectoires

Résumé

Les agents d'IA s'appuient sur un harnais de compétences, d'outils et de flux de travail pour résoudre des problèmes complexes. Améliorer continuellement ce harnais est essentiel pour s'adapter à de nouvelles tâches. Cependant, les méthodes d'optimisation existantes nécessitent généralement des ensembles de validation de vérité de terrain, or ces données étiquetées sont difficiles à obtenir dans des contextes de déploiement pratique. Pour remédier à ce problème, nous introduisons l'Optimisation Rétrospective du Harnais (RHO), une méthode auto-supervisée qui optimise le harnais de l'agent en utilisant uniquement des trajectoires passées. Plus précisément, RHO sélectionne un coreset diversifié de tâches difficiles issues des trajectoires passées et les résout à nouveau en parallèle. L'agent analyse ces déploiements par auto-validation et auto-cohérence, puis génère des mises à jour candidates du harnais et sélectionne la plus efficace via sa propre auto-préférence par paire. Nous évaluons RHO dans trois domaines distincts, couvrant le génie logiciel, le travail technique et le travail cognitif. Notamment, un seul cycle d'optimisation améliore le taux de réussite sur SWE-Bench Pro de 59 % à 78 % sans aucune évaluation externe. De plus, notre analyse montre que RHO cible efficacement les modes d'échec antérieurs. En conséquence, le harnais optimisé modifie les schémas comportementaux de l'agent et maintient une précision plus élevée lors de sessions à long horizon.

English

AI agents rely on a harness of skills, tools, and workflows to solve complex problems. Continually improving this harness is essential for adapting to new tasks. However, existing optimization methods typically require ground-truth validation sets, yet such labeled data is difficult to acquire in practical deployment settings. To address this problem, we introduce Retrospective Harness Optimization (RHO), a self-supervised method that optimizes the agent harness using only past trajectories. Specifically, RHO selects a diverse coreset of challenging tasks from past trajectories and re-solves them in parallel. The agent analyzes these rollouts using self-validation and self-consistency, then generates candidate harness updates and selects the most effective one by its own pairwise self-preference. We evaluate RHO across three diverse domains, spanning software engineering, technical work, and knowledge work. Notably, a single optimization round improves the pass rate on SWE-Bench Pro from 59% to 78% without any external grading. Furthermore, our analysis demonstrates that RHO effectively targets prior failure modes. As a result, the optimized harness alters the agent's behavior patterns and sustains higher accuracy during long-horizon sessions.