WebCoach: Zelf-evoluerende webagents met begeleiding door cross-sessiegeheugen

Samenvatting

Multimodale LLM-gestuurde agents hebben recent indrukwekkende capaciteiten getoond in webnavigatie, waardoor ze complexe browsertaken in diverse domeinen kunnen voltooien. Huidige agents kampen echter met repetitieve fouten en missen het vermogen om te leren van eerdere ervaringen over sessies heen, wat hun langetermijnrobuustheid en steekproevefficiëntie beperkt. Wij introduceren WebCoach, een model-agnostisch zelf-evoluerend framework dat webbrowsingagents voorziet van een persistente geheugenopslag over sessies heen, waardoor verbeterde langetermijnplanning, reflectie en continu leren mogelijk worden zonder hertraining. WebCoach bestaat uit drie kerncomponenten: (1) een WebCondenser, die ruwe navigatielogbestanden standaardiseert tot beknopte samenvattingen; (2) een Extern Geheugenarchief, dat complete trajecten organiseert als episodische ervaringen; en (3) een Coach, die relevante ervaringen ophaalt op basis van gelijkenis en recentie, en beslist of taakspecifiek advies moet worden geïnjecteerd in de agent via runtime-hooks. Dit ontwerp stelt webagents in staat om toegang te krijgen tot langetermijngeheugen buiten hun native contextvenster, wat de robuustheid in complexe browsertaken verbetert. Bovendien bereikt WebCoach zelf-evolutie door continu episodisch geheugen te cureren vanuit nieuwe navigatietrajecten, waardoor agents in de loop van de tijd kunnen verbeteren zonder hertraining. Evaluaties op de WebVoyager-benchmark tonen aan dat WebCoach consistent de prestaties verbetert van browsergebruikende agents over drie verschillende LLM-backbones. Met een 38B-model verhoogt het de taaksuccespercentages van 47% naar 61% terwijl het gemiddeld aantal stappen wordt verlaagd of gelijk gehouden. Opmerkelijk is dat kleinere basismodellen met WebCoach prestaties bereiken die vergelijkbaar zijn met dezelfde webagent die GPT-4o gebruikt.

English

Multimodal LLM-powered agents have recently demonstrated impressive capabilities in web navigation, enabling agents to complete complex browsing tasks across diverse domains. However, current agents struggle with repetitive errors and lack the ability to learn from past experiences across sessions, limiting their long-term robustness and sample efficiency. We introduce WebCoach, a model-agnostic self-evolving framework that equips web browsing agents with persistent cross-session memory, enabling improved long-term planning, reflection, and continual learning without retraining. WebCoach consists of three key components: (1) a WebCondenser, which standardizes raw navigation logs into concise summaries; (2) an External Memory Store, which organizes complete trajectories as episodic experiences; and (3) a Coach, which retrieves relevant experiences based on similarity and recency, and decides whether to inject task-specific advice into the agent via runtime hooks. This design empowers web agents to access long-term memory beyond their native context window, improving robustness in complex browsing tasks. Moreover, WebCoach achieves self-evolution by continuously curating episodic memory from new navigation trajectories, enabling agents to improve over time without retraining. Evaluations on the WebVoyager benchmark demonstrate that WebCoach consistently improves the performance of browser-use agents across three different LLM backbones. With a 38B model, it increases task success rates from 47% to 61% while reducing or maintaining the average number of steps. Notably, smaller base models with WebCoach achieve performance comparable to the same web agent using GPT-4o.

WebCoach: Zelf-evoluerende webagents met begeleiding door cross-sessiegeheugen

WebCoach: Self-Evolving Web Agents with Cross-Session Memory Guidance

Samenvatting

Support