WebCoach: Agentes Web de Auto-Evolução com Orientação de Memória Transversal entre Sessões

Resumo

Agentes multimodais baseados em LLMs demonstraram recentemente capacidades impressionantes em navegação web, permitindo que completem tarefas complexas de navegação em diversos domínios. No entanto, os agentes atuais enfrentam dificuldades com erros repetitivos e carecem da capacidade de aprender com experiências passadas entre sessões, limitando sua robustez de longo prazo e eficiência amostral. Apresentamos o WebCoach, uma estrutura auto-evolutiva independente de modelo que equipa agentes de navegação web com memória persistente entre sessões, permitindo um melhor planejamento de longo prazo, reflexão e aprendizado contínuo sem necessidade de retreinamento. O WebCoach consiste em três componentes principais: (1) um WebCondenser, que padroniza logs brutos de navegação em resumos concisos; (2) um Armazenamento de Memória Externa, que organiza trajetórias completas como experiências episódicas; e (3) um Coach, que recupera experiências relevantes com base em similaridade e recenticidade, e decide se injeta conselhos específicos para a tarefa no agente através de hooks de tempo de execução. Este projeto capacita os agentes web a acessarem memória de longo prazo além de sua janela de contexto nativa, melhorando a robustez em tarefas complexas de navegação. Além disso, o WebCoach alcança a auto-evolução ao curar continuamente a memória episódica a partir de novas trajetórias de navegação, permitindo que os agentes melhorem com o tempo sem retreinamento. Avaliações no benchmark WebVoyager demonstram que o WebCoach melhora consistentemente o desempenho de agentes de uso de navegador em três backbones de LLM diferentes. Com um modelo de 38B, aumenta as taxas de sucesso de tarefas de 47% para 61%, enquanto reduz ou mantém o número médio de etapas. Notavelmente, modelos base menores com WebCoach alcançam desempenho comparável ao mesmo agente web usando GPT-4o.

English

Multimodal LLM-powered agents have recently demonstrated impressive capabilities in web navigation, enabling agents to complete complex browsing tasks across diverse domains. However, current agents struggle with repetitive errors and lack the ability to learn from past experiences across sessions, limiting their long-term robustness and sample efficiency. We introduce WebCoach, a model-agnostic self-evolving framework that equips web browsing agents with persistent cross-session memory, enabling improved long-term planning, reflection, and continual learning without retraining. WebCoach consists of three key components: (1) a WebCondenser, which standardizes raw navigation logs into concise summaries; (2) an External Memory Store, which organizes complete trajectories as episodic experiences; and (3) a Coach, which retrieves relevant experiences based on similarity and recency, and decides whether to inject task-specific advice into the agent via runtime hooks. This design empowers web agents to access long-term memory beyond their native context window, improving robustness in complex browsing tasks. Moreover, WebCoach achieves self-evolution by continuously curating episodic memory from new navigation trajectories, enabling agents to improve over time without retraining. Evaluations on the WebVoyager benchmark demonstrate that WebCoach consistently improves the performance of browser-use agents across three different LLM backbones. With a 38B model, it increases task success rates from 47% to 61% while reducing or maintaining the average number of steps. Notably, smaller base models with WebCoach achieve performance comparable to the same web agent using GPT-4o.