ChatPaper.aiChatPaper

GPT-4V(ision) is een algemene webagent, mits gegrond.

GPT-4V(ision) is a Generalist Web Agent, if Grounded

January 3, 2024
Auteurs: Boyuan Zheng, Boyu Gou, Jihyung Kil, Huan Sun, Yu Su
cs.AI

Samenvatting

De recente ontwikkelingen op het gebied van grote multimodale modellen (LMMs), met name GPT-4V(ision) en Gemini, hebben de mogelijkheden van multimodale modellen snel uitgebreid voorbij traditionele taken zoals beeldbeschrijving en visuele vraagbeantwoording. In dit werk onderzoeken we het potentieel van LMMs zoals GPT-4V als een generalistische webagent die natuurlijke taal instructies kan volgen om taken op een gegeven website uit te voeren. We stellen SEEACT voor, een generalistische webagent die de kracht van LMMs benut voor geïntegreerd visueel begrip en handelen op het web. We evalueren op de recente MIND2WEB-benchmark. Naast de standaard offline-evaluatie op gecachte websites, maken we een nieuwe online-evaluatieomgeving mogelijk door een tool te ontwikkelen die het uitvoeren van webagenten op live websites mogelijk maakt. We tonen aan dat GPT-4V een groot potentieel heeft voor webagenten – het kan met succes 50% van de taken op live websites voltooien als we de tekstuele plannen handmatig vertalen naar acties op de websites. Dit overtreft aanzienlijk tekstuele LLMs zoals GPT-4 of kleinere modellen (FLAN-T5 en BLIP-2) die specifiek zijn afgestemd voor webagenten. Het vertalen van plannen naar acties blijft echter een grote uitdaging. Bestaande LMM-vertaalstrategieën zoals set-of-mark prompting blijken niet effectief te zijn voor webagenten, en de beste vertaalstrategie die we in dit artikel ontwikkelen, maakt gebruik van zowel de HTML-tekst als de visuele elementen. Toch blijft er een aanzienlijk verschil met orakelvertaling, wat ruimte laat voor verdere verbetering.
English
The recent development on large multimodal models (LMMs), especially GPT-4V(ision) and Gemini, has been quickly expanding the capability boundaries of multimodal models beyond traditional tasks like image captioning and visual question answering. In this work, we explore the potential of LMMs like GPT-4V as a generalist web agent that can follow natural language instructions to complete tasks on any given website. We propose SEEACT, a generalist web agent that harnesses the power of LMMs for integrated visual understanding and acting on the web. We evaluate on the recent MIND2WEB benchmark. In addition to standard offline evaluation on cached websites, we enable a new online evaluation setting by developing a tool that allows running web agents on live websites. We show that GPT-4V presents a great potential for web agents - it can successfully complete 50% of the tasks on live websites if we manually ground its textual plans into actions on the websites. This substantially outperforms text-only LLMs like GPT-4 or smaller models (FLAN-T5 and BLIP-2) specifically fine-tuned for web agents. However, grounding still remains a major challenge. Existing LMM grounding strategies like set-of-mark prompting turns out not effective for web agents, and the best grounding strategy we develop in this paper leverages both the HTML text and visuals. Yet, there is still a substantial gap with oracle grounding, leaving ample room for further improvement.
PDF221December 15, 2024