Retrospectieve Harnasoptimalisatie: Verbetering van LLM-agenten via Zelfvoorkeur over Trajectory Rollouts

Samenvatting

AI-agenten vertrouwen op een harnas van vaardigheden, tools en workflows om complexe problemen op te lossen. Het continu verbeteren van dit harnas is essentieel om zich aan te passen aan nieuwe taken. Echter, bestaande optimalisatiemethoden vereisen doorgaans ground-truth validatiesets, maar dergelijke gelabelde gegevens zijn moeilijk te verkrijgen in praktische implementatieomgevingen. Om dit probleem aan te pakken, introduceren we Retrospective Harness Optimization (RHO), een zelfgestuurde methode die het agentharnas optimaliseert met alleen eerdere trajecten. Specifiek selecteert RHO een diverse coreset van uitdagende taken uit eerdere trajecten en lost deze opnieuw parallel op. De agent analyseert deze rollouts met behulp van zelfvalidatie en zelfconsistentie, genereert vervolgens kandidaat-harnasupdates en selecteert de meest effectieve op basis van zijn eigen paarsgewijze zelfvoorkeur. We evalueren RHO in drie uiteenlopende domeinen, namelijk softwareontwikkeling, technisch werk en kenniswerk. Opmerkelijk is dat een enkele optimalisatieronde het slaagpercentage op SWE-Bench Pro verbetert van 59% naar 78%, zonder enige externe beoordeling. Bovendien toont onze analyse aan dat RHO effectief inspeelt op eerdere faalwijzen. Als gevolg hiervan verandert het geoptimaliseerde harnas de gedragspatronen van de agent en handhaaft het een hogere nauwkeurigheid tijdens langdurige sessies.

English

AI agents rely on a harness of skills, tools, and workflows to solve complex problems. Continually improving this harness is essential for adapting to new tasks. However, existing optimization methods typically require ground-truth validation sets, yet such labeled data is difficult to acquire in practical deployment settings. To address this problem, we introduce Retrospective Harness Optimization (RHO), a self-supervised method that optimizes the agent harness using only past trajectories. Specifically, RHO selects a diverse coreset of challenging tasks from past trajectories and re-solves them in parallel. The agent analyzes these rollouts using self-validation and self-consistency, then generates candidate harness updates and selects the most effective one by its own pairwise self-preference. We evaluate RHO across three diverse domains, spanning software engineering, technical work, and knowledge work. Notably, a single optimization round improves the pass rate on SWE-Bench Pro from 59% to 78% without any external grading. Furthermore, our analysis demonstrates that RHO effectively targets prior failure modes. As a result, the optimized harness alters the agent's behavior patterns and sustains higher accuracy during long-horizon sessions.