ChatPaper.aiChatPaper

WebCoach: Selbstentwickelnde Web-Agenten mit sitzungsübergreifender Speicherführung

WebCoach: Self-Evolving Web Agents with Cross-Session Memory Guidance

November 17, 2025
papers.authors: Genglin Liu, Shijie Geng, Sha Li, Hejie Cui, Sarah Zhang, Xin Liu, Tianyi Liu
cs.AI

papers.abstract

Multimodale, von LLMs angetriebene Agenten haben kürzlich beeindruckende Fähigkeiten in der Webnavigation demonstriert, die es Agenten ermöglichen, komplexe Browser-Aufgaben in verschiedenen Domänen zu erledigen. Allerdings kämpfen aktuelle Agenten mit wiederholten Fehlern und fehlender Fähigkeit, aus vergangenen Erfahrungen über Sitzungen hinweg zu lernen, was ihre langfristige Robustheit und Stichprobeneffizienz einschränkt. Wir stellen WebCoach vor, ein modellagnostisches, sich selbst weiterentwickelndes Framework, das Web-Browsing-Agenten mit persistentem, sitzungsübergreifendem Gedächtnis ausstattet und so verbesserte langfristige Planung, Reflexion und kontinuierliches Lernen ohne Neutraining ermöglicht. WebCoach besteht aus drei Schlüsselkomponenten: (1) einem WebCondenser, der Roh-Navigationsprotokolle in prägnante Zusammenfassungen standardisiert; (2) einem Externen Speicher (External Memory Store), der vollständige Trajektorien als episodische Erfahrungen organisiert; und (3) einem Coach, der relevante Erfahrungen basierend auf Ähnlichkeit und Aktualität abruft und entscheidet, ob taskspezifische Ratschläge via Runtime-Hooks in den Agenten injiziert werden. Dieser Entwurf befähigt Web-Agenten, auf Langzeitgedächtnis über ihr natives Kontextfenster hinaus zuzugreifen, was die Robustheit in komplexen Browser-Aufgaben verbessert. Darüber hinaus erreicht WebCoach Selbstevolution durch kontinuierliche Kuratierung des episodischen Gedächtnisses aus neuen Navigations-Trajektorien, was es Agenten ermöglicht, sich ohne Neutraining über die Zeit zu verbessern. Evaluationen auf dem WebVoyager-Benchmark zeigen, dass WebCoach die Leistung von Browser-Agenten über drei verschiedene LLM-Backbones hinweg konsistent verbessert. Mit einem 38B-Modell steigert es die Aufgaben-Erfolgsquote von 47 % auf 61 %, während die durchschnittliche Anzahl der Schritte reduziert oder beibehalten wird. Bemerkenswerterweise erreichen kleinere Basismodelle mit WebCoach eine Leistung, die mit der desselben Web-Agenten unter Verwendung von GPT-4o vergleichbar ist.
English
Multimodal LLM-powered agents have recently demonstrated impressive capabilities in web navigation, enabling agents to complete complex browsing tasks across diverse domains. However, current agents struggle with repetitive errors and lack the ability to learn from past experiences across sessions, limiting their long-term robustness and sample efficiency. We introduce WebCoach, a model-agnostic self-evolving framework that equips web browsing agents with persistent cross-session memory, enabling improved long-term planning, reflection, and continual learning without retraining. WebCoach consists of three key components: (1) a WebCondenser, which standardizes raw navigation logs into concise summaries; (2) an External Memory Store, which organizes complete trajectories as episodic experiences; and (3) a Coach, which retrieves relevant experiences based on similarity and recency, and decides whether to inject task-specific advice into the agent via runtime hooks. This design empowers web agents to access long-term memory beyond their native context window, improving robustness in complex browsing tasks. Moreover, WebCoach achieves self-evolution by continuously curating episodic memory from new navigation trajectories, enabling agents to improve over time without retraining. Evaluations on the WebVoyager benchmark demonstrate that WebCoach consistently improves the performance of browser-use agents across three different LLM backbones. With a 38B model, it increases task success rates from 47% to 61% while reducing or maintaining the average number of steps. Notably, smaller base models with WebCoach achieve performance comparable to the same web agent using GPT-4o.
PDF101December 1, 2025