WebVoyager: Создание сквозного веб-агента с использованием крупных мультимодальных моделей
WebVoyager: Building an End-to-End Web Agent with Large Multimodal Models
January 25, 2024
Авторы: Hongliang He, Wenlin Yao, Kaixin Ma, Wenhao Yu, Yong Dai, Hongming Zhang, Zhenzhong Lan, Dong Yu
cs.AI
Аннотация
Развитие крупных языковых моделей (LLM) знаменует наступление новой эры, характеризующейся созданием автономных приложений для реального мира, что стимулирует инновации в разработке продвинутых веб-агентов. Существующие веб-агенты обычно обрабатывают только один тип входных данных и оцениваются исключительно в упрощенных веб-симуляторах или статических снимках веб-страниц, что значительно ограничивает их применимость в реальных сценариях. Чтобы преодолеть этот разрыв, мы представляем WebVoyager — инновационного веб-агента на основе крупной мультимодальной модели (LMM), способного выполнять пользовательские инструкции от начала до конца, взаимодействуя с реальными веб-сайтами. Кроме того, мы предлагаем новый протокол оценки веб-агентов, направленный на решение проблем автоматической оценки задач с открытым исходом, используя мощные мультимодальные возможности GPT-4V. Мы создаем новый бенчмарк, собрав реальные задачи с 15 широко используемых веб-сайтов для оценки наших агентов. Мы показываем, что WebVoyager достигает успешного выполнения задач в 55,7% случаев, значительно превосходя как GPT-4 (All Tools), так и текстовую версию WebVoyager, что подчеркивает исключительные возможности WebVoyager в практических приложениях. Мы обнаружили, что предложенная нами автоматическая оценка достигает 85,3% согласия с человеческими суждениями, открывая путь для дальнейшего развития веб-агентов в реальных условиях.
English
The advancement of large language models (LLMs) leads to a new era marked by
the development of autonomous applications in the real world, which drives
innovation in the creation of advanced web-based agents. Existing web agents
typically only handle one input modality and are evaluated only in simplified
web simulators or static web snapshots, greatly limiting their applicability in
real-world scenarios. To bridge this gap, we introduce WebVoyager, an
innovative Large Multimodal Model (LMM) powered web agent that can complete
user instructions end-to-end by interacting with real-world websites. Moreover,
we propose a new evaluation protocol for web agents to address the challenges
of automatic evaluation of open-ended web agent tasks, leveraging the robust
multimodal comprehension capabilities of GPT-4V. We create a new benchmark by
gathering real-world tasks from 15 widely used websites to evaluate our agents.
We show that WebVoyager achieves a 55.7% task success rate, significantly
surpassing the performance of both GPT-4 (All Tools) and the WebVoyager
(text-only) setups, underscoring the exceptional capability of WebVoyager in
practical applications. We found that our proposed automatic evaluation
achieves 85.3% agreement with human judgment, paving the way for further
development of web agents in a real-world setting.