Adaptives Auto-Harness: Kontinuierliche Selbstverbesserung für den Einsatz agentischer Systeme auf offenen Aufgabenströmen

Zusammenfassung

Auto-Harness-Systeme wie A-Evolve, GEPA und Meta-Harness verbessern LLM-Agenten, indem sie Prompts, Fähigkeiten, Werkzeuge, Erinnerungen und die unterstützende Infrastruktur basierend auf Ausführungsfeedback optimieren, werden jedoch typischerweise an festgelegten Offline-Benchmarks evaluiert. Reale Einsätze hingegen stellen offene Aufgabenströme dar: Historien wachsen ohne festen Endpunkt, heterogene Aufgaben erfordern unterschiedliche Harnesses, und Problemverteilungen verschieben sich im Laufe der Zeit. Diese Herausforderungen machen eine einzelne, wiederholt und dicht aktualisierte Harness anfällig, was zu Leistungsverschlechterungen führt, da die Genauigkeit früh einen Höhepunkt erreicht und dann abfällt. Dies motiviert eine kontinuierliche Harness-Konstruktion mit aufgabenweiser Anpassung. Wir stellen Adaptive Auto-Harness vor, ein Framework und System für solche Ströme. Das Framework zerlegt die Lücke zu einem Oracle-Harness in Evolutionsverlust und Anpassungsverlust. Das System adressiert diese Verluste mit einem zustandsbehafteten Multi-Agent-Evolver, einem Harness-Baum mit Laufzeit-Routing und Schnittstellen für menschliche Steuerung für Fälle, in denen der Historie das nötige Signal fehlt. In Strömen von Prognosemärkten, Sicherheitswettbewerben und Ereignisvorhersagen übertrifft Adaptive Auto-Harness fünf bestehende Auto-Harness-Baselines, und Ablationsstudien führen Verbesserungen auf bessere Konstruktion, Routing oder gezielte menschliche Steuerung zurück. Code ist verfügbar unter https://github.com/A-EVO-Lab/AdaptiveHarness .

English

Auto-harness systems such as A-Evolve, GEPA, and Meta-Harness improve LLM agents by optimizing prompts, skills, tools, memories, and supporting infrastructure from execution feedback, but they are typically evaluated on fixed offline benchmarks. Real deployments instead present open-ended task streams: histories grow without a fixed endpoint, heterogeneous tasks require different harnesses, and problem distributions shift over time. These challenges make a single repeatedly and densely updated harness brittle, causing performance degradation as accuracy peaks early and then declines. This motivates sustained harness construction with task-wise adaptation. We introduce Adaptive Auto-Harness, a framework and system for such streams. The framework decomposes the gap to an oracle harness into evolution loss and adaptation loss. The system addresses these losses with a stateful multi-agent evolver, a harness tree with solve-time routing, and human-steering hooks for cases where history lacks the needed signal. Across prediction-market, security-competition, and event-forecasting streams, Adaptive Auto-Harness outperforms five existing auto-harness baselines and ablations attribute gains to better construction, routing, or targeted human steering. Code is available in https://github.com/A-EVO-Lab/AdaptiveHarness .