WebCoach: Agenti Web Auto-Evolutivi con Guida della Memoria Trans-Sessione

Abstract

Recentemente, gli agenti multimodali basati su LLM hanno dimostrato capacità impressionanti nella navigazione web, consentendo di completare attività di navigazione complesse in diversi domini. Tuttavia, gli agenti attuali incontrano difficoltà con errori ripetitivi e mancano della capacità di apprendere dalle esperienze passate tra diverse sessioni, limitando la loro robustezza a lungo termine e l'efficienza campionaria. Introduciamo WebCoach, un framework auto-evolutivo indipendente dal modello che fornisce agli agenti di navigazione web una memoria persistente trans-sessione, consentendo un miglioramento nella pianificazione a lungo termine, nella riflessione e nell'apprendimento continuo senza necessità di riaddestramento. WebCoach è composto da tre componenti chiave: (1) un WebCondenser, che standardizza i log di navigazione grezzi in riepiloghi concisi; (2) un External Memory Store, che organizza le traiettorie complete come esperienze episodiche; e (3) un Coach, che recupera esperienze rilevanti basandosi su similarità e recentezza, e decide se iniettare consigli specifici per il compito nell'agente tramite hook di runtime. Questo design permette agli agenti web di accedere a una memoria a lungo termine che va oltre la loro finestra di contesto nativa, migliorando la robustezza in compiti di navigazione complessi. Inoltre, WebCoach raggiunge l'auto-evoluzione curando continuamente la memoria episodica da nuove traiettorie di navigazione, permettendo agli agenti di migliorare nel tempo senza riaddestramento. Le valutazioni sul benchmark WebVoyager dimostrano che WebCoach migliora costantemente le prestazioni degli agenti che utilizzano il browser su tre diversi backbone LLM. Con un modello da 38B, aumenta il tasso di successo dei compiti dal 47% al 61%, riducendo o mantenendo il numero medio di passi. Notevolmente, modelli base più piccoli equipaggiati con WebCoach raggiungono prestazioni paragonabili allo stesso agente web che utilizza GPT-4o.

English

Multimodal LLM-powered agents have recently demonstrated impressive capabilities in web navigation, enabling agents to complete complex browsing tasks across diverse domains. However, current agents struggle with repetitive errors and lack the ability to learn from past experiences across sessions, limiting their long-term robustness and sample efficiency. We introduce WebCoach, a model-agnostic self-evolving framework that equips web browsing agents with persistent cross-session memory, enabling improved long-term planning, reflection, and continual learning without retraining. WebCoach consists of three key components: (1) a WebCondenser, which standardizes raw navigation logs into concise summaries; (2) an External Memory Store, which organizes complete trajectories as episodic experiences; and (3) a Coach, which retrieves relevant experiences based on similarity and recency, and decides whether to inject task-specific advice into the agent via runtime hooks. This design empowers web agents to access long-term memory beyond their native context window, improving robustness in complex browsing tasks. Moreover, WebCoach achieves self-evolution by continuously curating episodic memory from new navigation trajectories, enabling agents to improve over time without retraining. Evaluations on the WebVoyager benchmark demonstrate that WebCoach consistently improves the performance of browser-use agents across three different LLM backbones. With a 38B model, it increases task success rates from 47% to 61% while reducing or maintaining the average number of steps. Notably, smaller base models with WebCoach achieve performance comparable to the same web agent using GPT-4o.

WebCoach: Agenti Web Auto-Evolutivi con Guida della Memoria Trans-Sessione

WebCoach: Self-Evolving Web Agents with Cross-Session Memory Guidance

Abstract

Support