WebVoyager: Costruire un Agente Web End-to-End con Modelli Multimodali di Grande Scala
WebVoyager: Building an End-to-End Web Agent with Large Multimodal Models
January 25, 2024
Autori: Hongliang He, Wenlin Yao, Kaixin Ma, Wenhao Yu, Yong Dai, Hongming Zhang, Zhenzhong Lan, Dong Yu
cs.AI
Abstract
Il progresso dei grandi modelli linguistici (LLM) inaugura una nuova era caratterizzata dallo sviluppo di applicazioni autonome nel mondo reale, che stimola l'innovazione nella creazione di agenti web avanzati. Gli attuali agenti web gestiscono tipicamente una sola modalità di input e vengono valutati solo in simulatori web semplificati o in istantanee statiche di pagine web, limitando notevolmente la loro applicabilità in scenari reali. Per colmare questa lacuna, introduciamo WebVoyager, un innovativo agente web basato su un Large Multimodal Model (LMM) in grado di completare le istruzioni dell'utente end-to-end interagendo con siti web reali. Inoltre, proponiamo un nuovo protocollo di valutazione per gli agenti web per affrontare le sfide della valutazione automatica di compiti aperti, sfruttando le robuste capacità di comprensione multimodale di GPT-4V. Creiamo un nuovo benchmark raccogliendo compiti reali da 15 siti web ampiamente utilizzati per valutare i nostri agenti. Dimostriamo che WebVoyager raggiunge un tasso di successo del 55,7%, superando significativamente le prestazioni sia di GPT-4 (All Tools) che delle configurazioni WebVoyager (solo testo), evidenziando l'eccezionale capacità di WebVoyager nelle applicazioni pratiche. Abbiamo riscontrato che la nostra valutazione automatica proposta raggiunge un accordo dell'85,3% con il giudizio umano, aprendo la strada a ulteriori sviluppi degli agenti web in contesti reali.
English
The advancement of large language models (LLMs) leads to a new era marked by
the development of autonomous applications in the real world, which drives
innovation in the creation of advanced web-based agents. Existing web agents
typically only handle one input modality and are evaluated only in simplified
web simulators or static web snapshots, greatly limiting their applicability in
real-world scenarios. To bridge this gap, we introduce WebVoyager, an
innovative Large Multimodal Model (LMM) powered web agent that can complete
user instructions end-to-end by interacting with real-world websites. Moreover,
we propose a new evaluation protocol for web agents to address the challenges
of automatic evaluation of open-ended web agent tasks, leveraging the robust
multimodal comprehension capabilities of GPT-4V. We create a new benchmark by
gathering real-world tasks from 15 widely used websites to evaluate our agents.
We show that WebVoyager achieves a 55.7% task success rate, significantly
surpassing the performance of both GPT-4 (All Tools) and the WebVoyager
(text-only) setups, underscoring the exceptional capability of WebVoyager in
practical applications. We found that our proposed automatic evaluation
achieves 85.3% agreement with human judgment, paving the way for further
development of web agents in a real-world setting.