WebVoyager: Costruire un Agente Web End-to-End con Modelli Multimodali di Grande Scala

Abstract

Il progresso dei grandi modelli linguistici (LLM) inaugura una nuova era caratterizzata dallo sviluppo di applicazioni autonome nel mondo reale, che stimola l'innovazione nella creazione di agenti web avanzati. Gli attuali agenti web gestiscono tipicamente una sola modalità di input e vengono valutati solo in simulatori web semplificati o in istantanee statiche di pagine web, limitando notevolmente la loro applicabilità in scenari reali. Per colmare questa lacuna, introduciamo WebVoyager, un innovativo agente web basato su un Large Multimodal Model (LMM) in grado di completare le istruzioni dell'utente end-to-end interagendo con siti web reali. Inoltre, proponiamo un nuovo protocollo di valutazione per gli agenti web per affrontare le sfide della valutazione automatica di compiti aperti, sfruttando le robuste capacità di comprensione multimodale di GPT-4V. Creiamo un nuovo benchmark raccogliendo compiti reali da 15 siti web ampiamente utilizzati per valutare i nostri agenti. Dimostriamo che WebVoyager raggiunge un tasso di successo del 55,7%, superando significativamente le prestazioni sia di GPT-4 (All Tools) che delle configurazioni WebVoyager (solo testo), evidenziando l'eccezionale capacità di WebVoyager nelle applicazioni pratiche. Abbiamo riscontrato che la nostra valutazione automatica proposta raggiunge un accordo dell'85,3% con il giudizio umano, aprendo la strada a ulteriori sviluppi degli agenti web in contesti reali.

English

The advancement of large language models (LLMs) leads to a new era marked by the development of autonomous applications in the real world, which drives innovation in the creation of advanced web-based agents. Existing web agents typically only handle one input modality and are evaluated only in simplified web simulators or static web snapshots, greatly limiting their applicability in real-world scenarios. To bridge this gap, we introduce WebVoyager, an innovative Large Multimodal Model (LMM) powered web agent that can complete user instructions end-to-end by interacting with real-world websites. Moreover, we propose a new evaluation protocol for web agents to address the challenges of automatic evaluation of open-ended web agent tasks, leveraging the robust multimodal comprehension capabilities of GPT-4V. We create a new benchmark by gathering real-world tasks from 15 widely used websites to evaluate our agents. We show that WebVoyager achieves a 55.7% task success rate, significantly surpassing the performance of both GPT-4 (All Tools) and the WebVoyager (text-only) setups, underscoring the exceptional capability of WebVoyager in practical applications. We found that our proposed automatic evaluation achieves 85.3% agreement with human judgment, paving the way for further development of web agents in a real-world setting.

WebVoyager: Costruire un Agente Web End-to-End con Modelli Multimodali di Grande Scala

WebVoyager: Building an End-to-End Web Agent with Large Multimodal Models

Abstract

Support