Retrospektive Nutzoptimierung: Verbesserung von LLM-Agenten durch Selbstpräferenz über Trajektorien-Rollouts

Zusammenfassung

KI-Agenten stützen sich auf ein Bündel aus Fähigkeiten, Werkzeugen und Arbeitsabläufen, um komplexe Probleme zu lösen. Die kontinuierliche Verbesserung dieses Bündels ist für die Anpassung an neue Aufgaben unerlässlich. Allerdings erfordern bestehende Optimierungsmethoden üblicherweise Ground-Truth-Validierungssets, doch derart gekennzeichnete Daten sind in praktischen Einsatzumgebungen nur schwer zu beschaffen. Um dieses Problem anzugehen, führen wir die Retrospective Harness Optimization (RHO) ein, eine selbstüberwachte Methode, die das Agentenbündel ausschließlich mithilfe vergangener Trajektorien optimiert. Konkret wählt RHO ein diverses Kernset anspruchsvoller Aufgaben aus vergangenen Trajektorien aus und löst diese parallel erneut. Der Agent analysiert diese Rollouts mittels Selbstvalidierung und Selbstkonsistenz, generiert anschließend Kandidaten für Bündelaktualisierungen und wählt die effektivste anhand seiner eigenen paarweisen Selbstpräferenz aus. Wir evaluieren RHO in drei verschiedenen Bereichen, die Softwareentwicklung, technische Arbeit und Wissensarbeit umfassen. Bemerkenswerterweise verbessert ein einziger Optimierungsdurchlauf die Bestehensquote auf SWE-Bench Pro von 59 % auf 78 %, ohne dass eine externe Bewertung erforderlich ist. Darüber hinaus zeigt unsere Analyse, dass RHO gezielt frühere Fehlermodi adressiert. Folglich verändert das optimierte Bündel die Verhaltensmuster des Agenten und bewahrt eine höhere Genauigkeit während längerfristiger Sitzungen.

English

AI agents rely on a harness of skills, tools, and workflows to solve complex problems. Continually improving this harness is essential for adapting to new tasks. However, existing optimization methods typically require ground-truth validation sets, yet such labeled data is difficult to acquire in practical deployment settings. To address this problem, we introduce Retrospective Harness Optimization (RHO), a self-supervised method that optimizes the agent harness using only past trajectories. Specifically, RHO selects a diverse coreset of challenging tasks from past trajectories and re-solves them in parallel. The agent analyzes these rollouts using self-validation and self-consistency, then generates candidate harness updates and selects the most effective one by its own pairwise self-preference. We evaluate RHO across three diverse domains, spanning software engineering, technical work, and knowledge work. Notably, a single optimization round improves the pass rate on SWE-Bench Pro from 59% to 78% without any external grading. Furthermore, our analysis demonstrates that RHO effectively targets prior failure modes. As a result, the optimized harness alters the agent's behavior patterns and sustains higher accuracy during long-horizon sessions.