WebVoyager: Construindo um Agente Web End-to-End com Modelos Multimodais de Grande Escala
WebVoyager: Building an End-to-End Web Agent with Large Multimodal Models
January 25, 2024
Autores: Hongliang He, Wenlin Yao, Kaixin Ma, Wenhao Yu, Yong Dai, Hongming Zhang, Zhenzhong Lan, Dong Yu
cs.AI
Resumo
O avanço dos grandes modelos de linguagem (LLMs) inaugura uma nova era marcada pelo desenvolvimento de aplicações autônomas no mundo real, impulsionando a inovação na criação de agentes web avançados. Os agentes web existentes geralmente lidam apenas com uma única modalidade de entrada e são avaliados apenas em simuladores web simplificados ou capturas estáticas de páginas web, limitando significativamente sua aplicabilidade em cenários do mundo real. Para preencher essa lacuna, apresentamos o WebVoyager, um agente web inovador baseado em um Grande Modelo Multimodal (LMM) que pode executar instruções do usuário de ponta a ponta ao interagir com sites reais. Além disso, propomos um novo protocolo de avaliação para agentes web, visando abordar os desafios da avaliação automática de tarefas abertas de agentes web, aproveitando as robustas capacidades de compreensão multimodal do GPT-4V. Criamos um novo benchmark ao coletar tarefas do mundo real de 15 sites amplamente utilizados para avaliar nossos agentes. Demonstramos que o WebVoyager alcança uma taxa de sucesso de tarefas de 55,7%, superando significativamente o desempenho tanto do GPT-4 (All Tools) quanto das configurações do WebVoyager (apenas texto), destacando a capacidade excepcional do WebVoyager em aplicações práticas. Constatamos que nossa proposta de avaliação automática alcança 85,3% de concordância com o julgamento humano, abrindo caminho para o desenvolvimento adicional de agentes web em ambientes do mundo real.
English
The advancement of large language models (LLMs) leads to a new era marked by
the development of autonomous applications in the real world, which drives
innovation in the creation of advanced web-based agents. Existing web agents
typically only handle one input modality and are evaluated only in simplified
web simulators or static web snapshots, greatly limiting their applicability in
real-world scenarios. To bridge this gap, we introduce WebVoyager, an
innovative Large Multimodal Model (LMM) powered web agent that can complete
user instructions end-to-end by interacting with real-world websites. Moreover,
we propose a new evaluation protocol for web agents to address the challenges
of automatic evaluation of open-ended web agent tasks, leveraging the robust
multimodal comprehension capabilities of GPT-4V. We create a new benchmark by
gathering real-world tasks from 15 widely used websites to evaluate our agents.
We show that WebVoyager achieves a 55.7% task success rate, significantly
surpassing the performance of both GPT-4 (All Tools) and the WebVoyager
(text-only) setups, underscoring the exceptional capability of WebVoyager in
practical applications. We found that our proposed automatic evaluation
achieves 85.3% agreement with human judgment, paving the way for further
development of web agents in a real-world setting.