Otimização Retrospectiva de Aproveitamento: Melhorando Agentes LLM via Autopreferência em Explorações de Trajetória

Resumo

Agentes de IA dependem de um arcabouço de habilidades, ferramentas e fluxos de trabalho para resolver problemas complexos. Melhorar continuamente esse arcabouço é essencial para se adaptar a novas tarefas. No entanto, os métodos de otimização existentes geralmente exigem conjuntos de validação com dados de referência, sendo que esses dados rotulados são difíceis de obter em cenários práticos de implantação. Para abordar esse problema, apresentamos a Otimização Retrospectiva de Arcabouço (RHO), um método auto-supervisionado que otimiza o arcabouço do agente utilizando apenas trajetórias passadas. Especificamente, o RHO seleciona um coreset diversificado de tarefas desafiadoras a partir de trajetórias passadas e as resolve novamente em paralelo. O agente analisa essas execuções usando autovalidação e autoconsistência, em seguida gera atualizações candidatas para o arcabouço e seleciona a mais eficaz por meio de sua própria autopreferência pareada. Avaliamos o RHO em três domínios diversos, abrangendo engenharia de software, trabalho técnico e trabalho de conhecimento. Notavelmente, uma única rodada de otimização melhora a taxa de aprovação no SWE-Bench Pro de 59% para 78%, sem qualquer avaliação externa. Além disso, nossa análise demonstra que o RHO tem como alvo eficaz os modos de falha anteriores. Como resultado, o arcabouço otimizado altera os padrões de comportamento do agente e sustenta uma precisão mais alta durante sessões de longo horizonte.

English

AI agents rely on a harness of skills, tools, and workflows to solve complex problems. Continually improving this harness is essential for adapting to new tasks. However, existing optimization methods typically require ground-truth validation sets, yet such labeled data is difficult to acquire in practical deployment settings. To address this problem, we introduce Retrospective Harness Optimization (RHO), a self-supervised method that optimizes the agent harness using only past trajectories. Specifically, RHO selects a diverse coreset of challenging tasks from past trajectories and re-solves them in parallel. The agent analyzes these rollouts using self-validation and self-consistency, then generates candidate harness updates and selects the most effective one by its own pairwise self-preference. We evaluate RHO across three diverse domains, spanning software engineering, technical work, and knowledge work. Notably, a single optimization round improves the pass rate on SWE-Bench Pro from 59% to 78% without any external grading. Furthermore, our analysis demonstrates that RHO effectively targets prior failure modes. As a result, the optimized harness alters the agent's behavior patterns and sustains higher accuracy during long-horizon sessions.