Исследователь: Масштабирование синтеза веб-траекторий, ориентированного на исследование, для мультимодальных веб-агентов
Explorer: Scaling Exploration-driven Web Trajectory Synthesis for Multimodal Web Agents
February 17, 2025
Авторы: Vardaan Pahuja, Yadong Lu, Corby Rosset, Boyu Gou, Arindam Mitra, Spencer Whitehead, Yu Su, Ahmed Awadallah
cs.AI
Аннотация
Недавние успехи в области крупных мультимодальных моделей (LMM) открыли перспективы для создания агентов, способных автономно выполнять сложные веб-задачи. Хотя открытые LMM-агенты достигли значительных успехов в оффлайн-бенчмарках, их производительность всё ещё существенно отстаёт от человеческого уровня в более реалистичных онлайн-сценариях. Основным ограничением является отсутствие разнообразных и масштабных наборов данных на уровне траекторий в различных доменах, сбор которых требует значительных затрат. В данной работе мы решаем эту проблему, разработав масштабируемую методику для синтеза крупнейшего и наиболее разнообразного набора данных на уровне траекторий, содержащего более 94K успешных мультимодальных веб-траекторий, охватывающих 49K уникальных URL-адресов, 720K скриншотов и 33M веб-элементов. В частности, мы используем обширное веб-исследование и уточнение для получения разнообразных намерений задач. Средняя стоимость составляет 28 центов за успешную траекторию, что делает её доступной для широкого круга пользователей. Используя этот набор данных, мы обучаем Explorer — мультимодального веб-агента — и демонстрируем высокую производительность как в оффлайн, так и в онлайн бенчмарках, таких как Mind2Web-Live, Multimodal-Mind2Web и MiniWob++. Кроме того, наши эксперименты подчёркивают, что масштабирование данных является ключевым фактором для улучшения возможностей веб-агентов. Мы надеемся, что это исследование сделает передовые исследования на основе LMM-агентов более доступными для широкого круга специалистов.
English
Recent success in large multimodal models (LMMs) has sparked promising
applications of agents capable of autonomously completing complex web tasks.
While open-source LMM agents have made significant advances in offline
evaluation benchmarks, their performance still falls substantially short of
human-level capabilities in more realistic online settings. A key bottleneck is
the lack of diverse and large-scale trajectory-level datasets across various
domains, which are expensive to collect. In this paper, we address this
challenge by developing a scalable recipe to synthesize the largest and most
diverse trajectory-level dataset to date, containing over 94K successful
multimodal web trajectories, spanning 49K unique URLs, 720K screenshots, and
33M web elements. In particular, we leverage extensive web exploration and
refinement to obtain diverse task intents. The average cost is 28 cents per
successful trajectory, making it affordable to a wide range of users in the
community. Leveraging this dataset, we train Explorer, a multimodal web agent,
and demonstrate strong performance on both offline and online web agent
benchmarks such as Mind2Web-Live, Multimodal-Mind2Web, and MiniWob++.
Additionally, our experiments highlight data scaling as a key driver for
improving web agent capabilities. We hope this study makes state-of-the-art
LMM-based agent research at a larger scale more accessible.