Optimización de Arnés Retrospectivo: Mejora de Agentes LLM mediante Autopreferencia sobre Despliegues de Trayectorias

Resumen

Los agentes de IA dependen de un armazón de habilidades, herramientas y flujos de trabajo para resolver problemas complejos. La mejora continua de este armazón es esencial para adaptarse a nuevas tareas. Sin embargo, los métodos de optimización existentes suelen requerir conjuntos de validación con datos reales, y dichos datos etiquetados son difíciles de obtener en entornos prácticos de despliegue. Para abordar este problema, introducimos la Optimización Retrospectiva del Armazón (RHO), un método autosupervisado que optimiza el armazón del agente utilizando únicamente trayectorias pasadas. Específicamente, RHO selecciona un conjunto núcleo diverso de tareas desafiantes a partir de trayectorias pasadas y las resuelve nuevamente en paralelo. El agente analiza estas ejecuciones mediante autovalidación y autoconsistencia, luego genera actualizaciones candidatas del armazón y selecciona la más efectiva según su propia autopreferencia por pares. Evaluamos RHO en tres dominios diversos, que abarcan ingeniería de software, trabajo técnico y trabajo de conocimiento. En particular, una sola ronda de optimización mejora la tasa de aprobación en SWE-Bench Pro del 59% al 78% sin necesidad de calificación externa. Además, nuestro análisis demuestra que RHO apunta efectivamente a modos de fallo previos. Como resultado, el armazón optimizado altera los patrones de comportamiento del agente y mantiene una mayor precisión durante sesiones de largo horizonte temporal.

English

AI agents rely on a harness of skills, tools, and workflows to solve complex problems. Continually improving this harness is essential for adapting to new tasks. However, existing optimization methods typically require ground-truth validation sets, yet such labeled data is difficult to acquire in practical deployment settings. To address this problem, we introduce Retrospective Harness Optimization (RHO), a self-supervised method that optimizes the agent harness using only past trajectories. Specifically, RHO selects a diverse coreset of challenging tasks from past trajectories and re-solves them in parallel. The agent analyzes these rollouts using self-validation and self-consistency, then generates candidate harness updates and selects the most effective one by its own pairwise self-preference. We evaluate RHO across three diverse domains, spanning software engineering, technical work, and knowledge work. Notably, a single optimization round improves the pass rate on SWE-Bench Pro from 59% to 78% without any external grading. Furthermore, our analysis demonstrates that RHO effectively targets prior failure modes. As a result, the optimized harness alters the agent's behavior patterns and sustains higher accuracy during long-horizon sessions.