WebCoach: Саморазвивающиеся веб-агенты с управлением на основе межсессионной памяти

Аннотация

Мультимодальные агенты на основе больших языковых моделей (LLM) недавно продемонстрировали впечатляющие возможности в области навигации в Интернете, позволяя выполнять сложные задачи веб-браузинга в различных доменах. Однако современные агенты сталкиваются с повторяющимися ошибками и не способны учиться на прошлом опыте между сессиями, что ограничивает их долгосрочную устойчивость и эффективность использования примеров. Мы представляем WebCoach — модель-агностичную саморазвивающуюся структуру, которая оснащает агентов веб-браузинга постоянной межсессионной памятью, обеспечивая улучшенное долгосрочное планирование, рефлексию и непрерывное обучение без переобучения. WebCoach состоит из трех ключевых компонентов: (1) WebCondenser, который стандартизирует сырые журналы навигации в сжатые сводки; (2) Внешнее хранилище памяти, которое организует полные траектории как эпизодический опыт; и (3) Coach, который извлекает релевантный опыт на основе сходства и новизны, и решает, внедрять ли специфические для задачи рекомендации в агента через runtime-хуки. Данная конструкция позволяет веб-агентам получать доступ к долговременной памяти за пределами их собственного контекстного окна, повышая устойчивость при выполнении сложных задач браузинга. Более того, WebCoach достигает саморазвития за счет непрерывного курирования эпизодической памяти из новых траекторий навигации, позволяя агентам улучшаться со временем без переобучения. Оценки на бенчмарке WebVoyager демонстрируют, что WebCoach стабильно улучшает производительность агентов, использующих браузер, на трех различных бэкбонах LLM. С моделью на 38B параметров он увеличивает процент успешного выполнения задач с 47% до 61%, при этом сокращая или сохраняя среднее количество шагов. Примечательно, что меньшие базовые модели с WebCoach достигают производительности, сопоставимой с тем же веб-агентом, использующим GPT-4o.

English

Multimodal LLM-powered agents have recently demonstrated impressive capabilities in web navigation, enabling agents to complete complex browsing tasks across diverse domains. However, current agents struggle with repetitive errors and lack the ability to learn from past experiences across sessions, limiting their long-term robustness and sample efficiency. We introduce WebCoach, a model-agnostic self-evolving framework that equips web browsing agents with persistent cross-session memory, enabling improved long-term planning, reflection, and continual learning without retraining. WebCoach consists of three key components: (1) a WebCondenser, which standardizes raw navigation logs into concise summaries; (2) an External Memory Store, which organizes complete trajectories as episodic experiences; and (3) a Coach, which retrieves relevant experiences based on similarity and recency, and decides whether to inject task-specific advice into the agent via runtime hooks. This design empowers web agents to access long-term memory beyond their native context window, improving robustness in complex browsing tasks. Moreover, WebCoach achieves self-evolution by continuously curating episodic memory from new navigation trajectories, enabling agents to improve over time without retraining. Evaluations on the WebVoyager benchmark demonstrate that WebCoach consistently improves the performance of browser-use agents across three different LLM backbones. With a 38B model, it increases task success rates from 47% to 61% while reducing or maintaining the average number of steps. Notably, smaller base models with WebCoach achieve performance comparable to the same web agent using GPT-4o.

WebCoach: Саморазвивающиеся веб-агенты с управлением на основе межсессионной памяти

WebCoach: Self-Evolving Web Agents with Cross-Session Memory Guidance

Аннотация

Support