Adaptief Auto-Harness: Voortdurende Zelfverbetering voor Implementatie van Agentische Systemen op Open-Eindige Taakstromen

Samenvatting

Auto-harnassystemen zoals A-Evolve, GEPA en Meta-Harness verbeteren LLM-agenten door prompts, vaardigheden, tools, geheugens en ondersteunende infrastructuur te optimaliseren op basis van uitvoeringsfeedback, maar worden doorgaans geëvalueerd op vaste offline benchmarks. In echte implementaties komen daarentegen open-taakstromen voor: geschiedenissen groeien zonder vast eindpunt, heterogene taken vereisen verschillende harnassen en probleemverdelingen verschuiven in de tijd. Deze uitdagingen maken een enkel, herhaaldelijk en dicht bijgewerkt harnas breekbaar, wat leidt tot prestatievermindering doordat de nauwkeurigheid piekt en vervolgens afneemt. Dit motiveert de ontwikkeling van duurzame harnasconstructie met taakspecifieke aanpassing. We introduceren Adaptive Auto-Harness, een raamwerk en systeem voor dergelijke stromen. Het raamwerk decomposeert de kloof tot een orakelharnas in evolutieverlies en adaptatieverlies. Het systeem adresseert deze verliezen met een toestandsafhankelijke multi-agent evolver, een harnasboom met routering op het moment van oplossen, en haken voor menselijke sturing voor gevallen waarin de geschiedenis het benodigde signaal mist. In marktvoorspelling-, beveiligingscompetitie- en gebeurtenisvoorspellingsstromen presteert Adaptive Auto-Harness beter dan vijf bestaande auto-harnasbaselines, en ablatie-experiments schrijven de winst toe aan betere constructie, routering of gerichte menselijke sturing. Code is beschikbaar op https://github.com/A-EVO-Lab/AdaptiveHarness.

English

Auto-harness systems such as A-Evolve, GEPA, and Meta-Harness improve LLM agents by optimizing prompts, skills, tools, memories, and supporting infrastructure from execution feedback, but they are typically evaluated on fixed offline benchmarks. Real deployments instead present open-ended task streams: histories grow without a fixed endpoint, heterogeneous tasks require different harnesses, and problem distributions shift over time. These challenges make a single repeatedly and densely updated harness brittle, causing performance degradation as accuracy peaks early and then declines. This motivates sustained harness construction with task-wise adaptation. We introduce Adaptive Auto-Harness, a framework and system for such streams. The framework decomposes the gap to an oracle harness into evolution loss and adaptation loss. The system addresses these losses with a stateful multi-agent evolver, a harness tree with solve-time routing, and human-steering hooks for cases where history lacks the needed signal. Across prediction-market, security-competition, and event-forecasting streams, Adaptive Auto-Harness outperforms five existing auto-harness baselines and ablations attribute gains to better construction, routing, or targeted human steering. Code is available in https://github.com/A-EVO-Lab/AdaptiveHarness .