WebCoach : Agents Web à Évolution Autonome Guidés par une Mémoire Intersession
WebCoach: Self-Evolving Web Agents with Cross-Session Memory Guidance
November 17, 2025
papers.authors: Genglin Liu, Shijie Geng, Sha Li, Hejie Cui, Sarah Zhang, Xin Liu, Tianyi Liu
cs.AI
papers.abstract
Les agents multimodaux alimentés par des LLM ont récemment démontré des capacités impressionnantes en navigation web, permettant d'accomplir des tâches de navigation complexes dans divers domaines. Cependant, les agents actuels peinent avec des erreurs répétitives et manquent de capacité à apprendre des expériences passées entre les sessions, limitant ainsi leur robustesse à long terme et leur efficacité d'échantillonnage. Nous présentons WebCoach, un cadre auto-évolutif indépendant du modèle qui équipe les agents de navigation web d'une mémoire persistante inter-sessions, permettant une meilleure planification à long terme, une réflexion et un apprentissage continu sans réentraînement. WebCoach se compose de trois éléments clés : (1) un WebCondenser, qui standardise les journaux de navigation bruts en résumés concis ; (2) un Stockage de Mémoire Externe, qui organise les trajectoires complètes comme expériences épisodiques ; et (3) un Coach, qui récupère les expériences pertinentes basées sur la similarité et la récence, et décide d'injecter ou non des conseils spécifiques à la tâche dans l'agent via des hooks d'exécution. Cette conception permet aux agents web d'accéder à une mémoire à long terme au-delà de leur fenêtre de contexte native, améliorant la robustesse dans les tâches de navigation complexes. De plus, WebCoach réalise une auto-évolution en organisant continuellement la mémoire épisodique à partir de nouvelles trajectoires de navigation, permettant aux agents de s'améliorer au fil du temps sans réentraînement. Les évaluations sur le benchmark WebVoyager démontrent que WebCoach améliore constamment les performances des agents utilisant un navigateur sur trois backbones LLM différents. Avec un modèle 38B, il augmente les taux de réussite des tâches de 47% à 61% tout en réduisant ou maintenant le nombre moyen d'étapes. Notamment, les modèles de base plus petits avec WebCoach atteignent des performances comparables au même agent web utilisant GPT-4o.
English
Multimodal LLM-powered agents have recently demonstrated impressive capabilities in web navigation, enabling agents to complete complex browsing tasks across diverse domains. However, current agents struggle with repetitive errors and lack the ability to learn from past experiences across sessions, limiting their long-term robustness and sample efficiency. We introduce WebCoach, a model-agnostic self-evolving framework that equips web browsing agents with persistent cross-session memory, enabling improved long-term planning, reflection, and continual learning without retraining. WebCoach consists of three key components: (1) a WebCondenser, which standardizes raw navigation logs into concise summaries; (2) an External Memory Store, which organizes complete trajectories as episodic experiences; and (3) a Coach, which retrieves relevant experiences based on similarity and recency, and decides whether to inject task-specific advice into the agent via runtime hooks. This design empowers web agents to access long-term memory beyond their native context window, improving robustness in complex browsing tasks. Moreover, WebCoach achieves self-evolution by continuously curating episodic memory from new navigation trajectories, enabling agents to improve over time without retraining. Evaluations on the WebVoyager benchmark demonstrate that WebCoach consistently improves the performance of browser-use agents across three different LLM backbones. With a 38B model, it increases task success rates from 47% to 61% while reducing or maintaining the average number of steps. Notably, smaller base models with WebCoach achieve performance comparable to the same web agent using GPT-4o.