WebVoyager: Создание сквозного веб-агента с использованием крупных мультимодальных моделей

Аннотация

Развитие крупных языковых моделей (LLM) знаменует наступление новой эры, характеризующейся созданием автономных приложений для реального мира, что стимулирует инновации в разработке продвинутых веб-агентов. Существующие веб-агенты обычно обрабатывают только один тип входных данных и оцениваются исключительно в упрощенных веб-симуляторах или статических снимках веб-страниц, что значительно ограничивает их применимость в реальных сценариях. Чтобы преодолеть этот разрыв, мы представляем WebVoyager — инновационного веб-агента на основе крупной мультимодальной модели (LMM), способного выполнять пользовательские инструкции от начала до конца, взаимодействуя с реальными веб-сайтами. Кроме того, мы предлагаем новый протокол оценки веб-агентов, направленный на решение проблем автоматической оценки задач с открытым исходом, используя мощные мультимодальные возможности GPT-4V. Мы создаем новый бенчмарк, собрав реальные задачи с 15 широко используемых веб-сайтов для оценки наших агентов. Мы показываем, что WebVoyager достигает успешного выполнения задач в 55,7% случаев, значительно превосходя как GPT-4 (All Tools), так и текстовую версию WebVoyager, что подчеркивает исключительные возможности WebVoyager в практических приложениях. Мы обнаружили, что предложенная нами автоматическая оценка достигает 85,3% согласия с человеческими суждениями, открывая путь для дальнейшего развития веб-агентов в реальных условиях.

English

The advancement of large language models (LLMs) leads to a new era marked by the development of autonomous applications in the real world, which drives innovation in the creation of advanced web-based agents. Existing web agents typically only handle one input modality and are evaluated only in simplified web simulators or static web snapshots, greatly limiting their applicability in real-world scenarios. To bridge this gap, we introduce WebVoyager, an innovative Large Multimodal Model (LMM) powered web agent that can complete user instructions end-to-end by interacting with real-world websites. Moreover, we propose a new evaluation protocol for web agents to address the challenges of automatic evaluation of open-ended web agent tasks, leveraging the robust multimodal comprehension capabilities of GPT-4V. We create a new benchmark by gathering real-world tasks from 15 widely used websites to evaluate our agents. We show that WebVoyager achieves a 55.7% task success rate, significantly surpassing the performance of both GPT-4 (All Tools) and the WebVoyager (text-only) setups, underscoring the exceptional capability of WebVoyager in practical applications. We found that our proposed automatic evaluation achieves 85.3% agreement with human judgment, paving the way for further development of web agents in a real-world setting.

WebVoyager: Создание сквозного веб-агента с использованием крупных мультимодальных моделей

WebVoyager: Building an End-to-End Web Agent with Large Multimodal Models

Аннотация

Support