WebVoyager: Het ontwikkelen van een end-to-end webagent met grote multimodale modellen
WebVoyager: Building an End-to-End Web Agent with Large Multimodal Models
January 25, 2024
Auteurs: Hongliang He, Wenlin Yao, Kaixin Ma, Wenhao Yu, Yong Dai, Hongming Zhang, Zhenzhong Lan, Dong Yu
cs.AI
Samenvatting
De vooruitgang van grote taalmodelen (LLM's) markeert een nieuw tijdperk, gekenmerkt door de ontwikkeling van autonome toepassingen in de echte wereld, wat innovatie aanwakkert in het creëren van geavanceerde webgebaseerde agents. Bestaande webagents hanteren doorgaans slechts één invoermodaliteit en worden alleen geëvalueerd in vereenvoudigde websimulators of statische webmomentopnamen, wat hun toepasbaarheid in realistische scenario's sterk beperkt. Om deze kloof te overbruggen, introduceren we WebVoyager, een innovatieve webagent aangedreven door een groot multimodaal model (LMM) die gebruikersinstructies end-to-end kan uitvoeren door interactie met echte websites. Bovendien stellen we een nieuw evaluatieprotocol voor webagents voor om de uitdagingen van automatische evaluatie van open-ended webagenttaken aan te pakken, waarbij we gebruikmaken van de robuuste multimodale begripscapaciteiten van GPT-4V. We creëren een nieuwe benchmark door realistische taken te verzamelen van 15 veelgebruikte websites om onze agents te evalueren. We tonen aan dat WebVoyager een taaksuccespercentage van 55,7% behaalt, wat aanzienlijk beter is dan de prestaties van zowel GPT-4 (All Tools) als de WebVoyager (tekst-only) setups, wat de uitzonderlijke capaciteiten van WebVoyager in praktische toepassingen onderstreept. We ontdekten dat onze voorgestelde automatische evaluatie een overeenkomst van 85,3% bereikt met menselijk oordeel, wat de weg vrijmaakt voor verdere ontwikkeling van webagents in een realistische omgeving.
English
The advancement of large language models (LLMs) leads to a new era marked by
the development of autonomous applications in the real world, which drives
innovation in the creation of advanced web-based agents. Existing web agents
typically only handle one input modality and are evaluated only in simplified
web simulators or static web snapshots, greatly limiting their applicability in
real-world scenarios. To bridge this gap, we introduce WebVoyager, an
innovative Large Multimodal Model (LMM) powered web agent that can complete
user instructions end-to-end by interacting with real-world websites. Moreover,
we propose a new evaluation protocol for web agents to address the challenges
of automatic evaluation of open-ended web agent tasks, leveraging the robust
multimodal comprehension capabilities of GPT-4V. We create a new benchmark by
gathering real-world tasks from 15 widely used websites to evaluate our agents.
We show that WebVoyager achieves a 55.7% task success rate, significantly
surpassing the performance of both GPT-4 (All Tools) and the WebVoyager
(text-only) setups, underscoring the exceptional capability of WebVoyager in
practical applications. We found that our proposed automatic evaluation
achieves 85.3% agreement with human judgment, paving the way for further
development of web agents in a real-world setting.