ChatPaper.aiChatPaper

WebVoyager: Het ontwikkelen van een end-to-end webagent met grote multimodale modellen

WebVoyager: Building an End-to-End Web Agent with Large Multimodal Models

January 25, 2024
Auteurs: Hongliang He, Wenlin Yao, Kaixin Ma, Wenhao Yu, Yong Dai, Hongming Zhang, Zhenzhong Lan, Dong Yu
cs.AI

Samenvatting

De vooruitgang van grote taalmodelen (LLM's) markeert een nieuw tijdperk, gekenmerkt door de ontwikkeling van autonome toepassingen in de echte wereld, wat innovatie aanwakkert in het creëren van geavanceerde webgebaseerde agents. Bestaande webagents hanteren doorgaans slechts één invoermodaliteit en worden alleen geëvalueerd in vereenvoudigde websimulators of statische webmomentopnamen, wat hun toepasbaarheid in realistische scenario's sterk beperkt. Om deze kloof te overbruggen, introduceren we WebVoyager, een innovatieve webagent aangedreven door een groot multimodaal model (LMM) die gebruikersinstructies end-to-end kan uitvoeren door interactie met echte websites. Bovendien stellen we een nieuw evaluatieprotocol voor webagents voor om de uitdagingen van automatische evaluatie van open-ended webagenttaken aan te pakken, waarbij we gebruikmaken van de robuuste multimodale begripscapaciteiten van GPT-4V. We creëren een nieuwe benchmark door realistische taken te verzamelen van 15 veelgebruikte websites om onze agents te evalueren. We tonen aan dat WebVoyager een taaksuccespercentage van 55,7% behaalt, wat aanzienlijk beter is dan de prestaties van zowel GPT-4 (All Tools) als de WebVoyager (tekst-only) setups, wat de uitzonderlijke capaciteiten van WebVoyager in praktische toepassingen onderstreept. We ontdekten dat onze voorgestelde automatische evaluatie een overeenkomst van 85,3% bereikt met menselijk oordeel, wat de weg vrijmaakt voor verdere ontwikkeling van webagents in een realistische omgeving.
English
The advancement of large language models (LLMs) leads to a new era marked by the development of autonomous applications in the real world, which drives innovation in the creation of advanced web-based agents. Existing web agents typically only handle one input modality and are evaluated only in simplified web simulators or static web snapshots, greatly limiting their applicability in real-world scenarios. To bridge this gap, we introduce WebVoyager, an innovative Large Multimodal Model (LMM) powered web agent that can complete user instructions end-to-end by interacting with real-world websites. Moreover, we propose a new evaluation protocol for web agents to address the challenges of automatic evaluation of open-ended web agent tasks, leveraging the robust multimodal comprehension capabilities of GPT-4V. We create a new benchmark by gathering real-world tasks from 15 widely used websites to evaluate our agents. We show that WebVoyager achieves a 55.7% task success rate, significantly surpassing the performance of both GPT-4 (All Tools) and the WebVoyager (text-only) setups, underscoring the exceptional capability of WebVoyager in practical applications. We found that our proposed automatic evaluation achieves 85.3% agreement with human judgment, paving the way for further development of web agents in a real-world setting.
PDF324December 15, 2024