WebCoach: Agentes Web de Auto-Evolución con Guía de Memoria Transversal entre Sesiones

Resumen

Los agentes multimodales impulsados por LLM han demostrado recientemente capacidades impresionantes en la navegación web, permitiendo a los agentes completar tareas de navegación complejas en diversos dominios. Sin embargo, los agentes actuales tienen dificultades con errores repetitivos y carecen de la capacidad de aprender de experiencias pasadas entre sesiones, lo que limita su robustez a largo plazo y su eficiencia muestral. Presentamos WebCoach, un marco de auto-evolución independiente del modelo que equipa a los agentes de navegación web con una memoria persistente entre sesiones, permitiendo una mejor planificación a largo plazo, reflexión y aprendizaje continuo sin necesidad de reentrenamiento. WebCoach consta de tres componentes clave: (1) un WebCondenser, que estandariza los registros de navegación en bruto en resúmenes concisos; (2) un Almacén de Memoria Externa, que organiza trayectorias completas como experiencias episódicas; y (3) un Coach, que recupera experiencias relevantes basadas en similitud y proximidad temporal, y decide si inyectar consejos específicos de tarea en el agente mediante hooks de tiempo de ejecución. Este diseño permite a los agentes web acceder a memoria a largo plazo más allá de su ventana de contexto nativa, mejorando la robustez en tareas de navegación complejas. Además, WebCoach logra la auto-evolución mediante la curación continua de memoria episódica a partir de nuevas trayectorias de navegación, permitiendo a los agentes mejorar con el tiempo sin reentrenamiento. Las evaluaciones en el benchmark WebVoyager demuestran que WebCoach mejora consistentemente el rendimiento de agentes de uso de navegador en tres backbones de LLM diferentes. Con un modelo de 38B, aumenta las tasas de éxito de tareas del 47% al 61% mientras reduce o mantiene el número promedio de pasos. Notablemente, modelos base más pequeños con WebCoach logran un rendimiento comparable al mismo agente web que utiliza GPT-4o.

English

Multimodal LLM-powered agents have recently demonstrated impressive capabilities in web navigation, enabling agents to complete complex browsing tasks across diverse domains. However, current agents struggle with repetitive errors and lack the ability to learn from past experiences across sessions, limiting their long-term robustness and sample efficiency. We introduce WebCoach, a model-agnostic self-evolving framework that equips web browsing agents with persistent cross-session memory, enabling improved long-term planning, reflection, and continual learning without retraining. WebCoach consists of three key components: (1) a WebCondenser, which standardizes raw navigation logs into concise summaries; (2) an External Memory Store, which organizes complete trajectories as episodic experiences; and (3) a Coach, which retrieves relevant experiences based on similarity and recency, and decides whether to inject task-specific advice into the agent via runtime hooks. This design empowers web agents to access long-term memory beyond their native context window, improving robustness in complex browsing tasks. Moreover, WebCoach achieves self-evolution by continuously curating episodic memory from new navigation trajectories, enabling agents to improve over time without retraining. Evaluations on the WebVoyager benchmark demonstrate that WebCoach consistently improves the performance of browser-use agents across three different LLM backbones. With a 38B model, it increases task success rates from 47% to 61% while reducing or maintaining the average number of steps. Notably, smaller base models with WebCoach achieve performance comparable to the same web agent using GPT-4o.

WebCoach: Agentes Web de Auto-Evolución con Guía de Memoria Transversal entre Sesiones

WebCoach: Self-Evolving Web Agents with Cross-Session Memory Guidance

Resumen

Support