Multimodale webnavigatie met instructiegefijnde foundation-modellen
Multimodal Web Navigation with Instruction-Finetuned Foundation Models
May 19, 2023
Auteurs: Hiroki Furuta, Ofir Nachum, Kuang-Huei Lee, Yutaka Matsuo, Shixiang Shane Gu, Izzeddin Gur
cs.AI
Samenvatting
De vooruitgang van autonoom webnavigatie is belemmerd door de afhankelijkheid van miljarden verkennende interacties via online reinforcement learning, en domeinspecifieke modelontwerpen die het moeilijk maken om generalisatie te benutten vanuit rijke out-of-domain data. In dit werk bestuderen we data-gedreven offline training voor webagents met vision-language foundation models. We stellen een instructie-volgend multimodaal agent voor, WebGUM, die zowel webpagina-screenshots als HTML-pagina's observeert en webnavigatieacties uitvoert, zoals klikken en typen. WebGUM wordt getraind door gezamenlijk een instructie-finetuned taalmodel en een vision transformer te finetunen op een grote corpus van demonstraties. We tonen empirisch aan dat deze aanpak het vermogen van de agent verbetert op het gebied van gegronde visuele perceptie, HTML-begrip en meerstaps redeneren, en daarmee eerdere werken met een aanzienlijke marge overtreft. Op de MiniWoB-benchmark verbeteren we met meer dan 31,9% ten opzichte van de beste offline methoden, en komen we dicht in de buurt van de online-finetuned state-of-the-art (SoTA). Op de WebShop-benchmark behaalt ons 3-miljard-parameter model superieure prestaties ten opzichte van de bestaande SoTA, PaLM-540B. We verzamelen ook 347K hoogwaardige demonstraties met onze getrainde modellen, 38 keer groter dan eerder werk, en stellen deze beschikbaar om toekomstig onderzoek in deze richting te bevorderen.
English
The progress of autonomous web navigation has been hindered by the dependence
on billions of exploratory interactions via online reinforcement learning, and
domain-specific model designs that make it difficult to leverage generalization
from rich out-of-domain data. In this work, we study data-driven offline
training for web agents with vision-language foundation models. We propose an
instruction-following multimodal agent, WebGUM, that observes both webpage
screenshots and HTML pages and outputs web navigation actions, such as click
and type. WebGUM is trained by jointly finetuning an instruction-finetuned
language model and a vision transformer on a large corpus of demonstrations. We
empirically demonstrate this recipe improves the agent's ability of grounded
visual perception, HTML comprehension and multi-step reasoning, outperforming
prior works by a significant margin. On the MiniWoB benchmark, we improve over
the previous best offline methods by more than 31.9%, being close to reaching
online-finetuned SoTA. On the WebShop benchmark, our 3-billion-parameter model
achieves superior performance to the existing SoTA, PaLM-540B. We also collect
347K high-quality demonstrations using our trained models, 38 times larger than
prior work, and make them available to promote future research in this
direction.