Ontsnappen aan de zelfbevestigingsval: een Uitvoeren-Destilleren-Verifiëren-paradigma voor agentisch ervaringsleren

Samenvatting

Ervaringgestuurde zelfevolutie is cruciaal voor grote taalmodellen (LLM-agenten) om te verbeteren door interactie met de open wereld. Bestaande methoden voor ervaringsleren vertrouwen echter grotendeels op enkelvoudige agent-lussen, waarbij dezelfde agent taken uitvoert, resultaten samenvat en de inhoud van het geheugen bepaalt. Deze opzet maakt agenten kwetsbaar voor de zelfbevestigingsvalkuil: verkeerde maar zelfconsistente trajecten worden ten onrechte als succesvolle ervaringen geïdentificeerd, wat leidt tot cumulatieve fouten bij het ophalen en hergebruiken. Om dit probleem aan te pakken, introduceren we EDV, een Uitvoer-Distilleer-Verifieer-framework voor betrouwbaar ervaringsleren. In de Uitvoerfase verkennen meerdere heterogene agenten parallel dezelfde taakruimte om diverse kandidaattrajecten te genereren. In de Distilleerfase analyseert een speciale derde partij deze trajecten vergelijkend om kandidaatervaringen te produceren, waardoor de samenvattingsbias van de uitvoerder wordt verminderd. In de Verifieerfase valideert de uitvoeringsgroep de kandidaten via een consensusmechanisme, en alleen goedgekeurde ervaringen worden in gedeeld of privégeheugen geschreven. Door de drie fasen te ontkoppelen, transformeert EDV ervaringsleren van geïsoleerde zelfreflectie naar collaboratieve constructie, waarbij foutieve en ruizige inhoud wordt gefilterd voordat deze in het geheugen wordt geplaatst. We evalueren EDV op drie uitdagende langetermijnbenchmarks: tau2-bench, Mind2Web en MMTB. Resultaten tonen aan dat EDV consequent sterke basislijnen overtreft, wat bevestigt dat betrouwbare ervaringsconstructie essentieel is voor robuuste agentzelfevolutie. Onze code is beschikbaar op https://github.com/shidingz/EDV.

English

Experience-driven self-evolution is critical for large language model (LLM) agents to improve through open-world interaction. However, existing experience learning methods mostly rely on single-agent loops, where the same agent executes tasks, summarizes outcomes, and determines memory content. This setup makes agents vulnerable to the Self-Confirmation Trap: wrong-but-self-consistent trajectories are misidentified as successful experience, leading to cumulative errors during retrieval and reuse. To address this issue, we propose EDV, an Execute-Distill-Verify framework for reliable experience learning. In the Execute stage, multiple heterogeneous agents explore the same task space in parallel to generate diverse candidate trajectories. In the Distill stage, a dedicated third-party agent comparatively analyzes these trajectories to produce candidate experiences, reducing executor-centric summarization bias. In the Verify stage, the execution group validates candidates via a consensus mechanism, and only approved experiences are written into shared or private memory. By decoupling the three stages, EDV transforms experience learning from isolated self-reflection into collaborative construction, filtering erroneous and noisy content before memory insertion. We evaluate EDV on three challenging long-horizon benchmarks: tau2-bench, Mind2Web and MMTB. Results show EDV consistently outperforms strong baselines, validating that reliable experience construction is essential for robust agent self-evolution. Our code is available at https://github.com/shidingz/EDV.