Multimodale webnavigatie met instructiegefijnde foundation-modellen

Samenvatting

De vooruitgang van autonoom webnavigatie is belemmerd door de afhankelijkheid van miljarden verkennende interacties via online reinforcement learning, en domeinspecifieke modelontwerpen die het moeilijk maken om generalisatie te benutten vanuit rijke out-of-domain data. In dit werk bestuderen we data-gedreven offline training voor webagents met vision-language foundation models. We stellen een instructie-volgend multimodaal agent voor, WebGUM, die zowel webpagina-screenshots als HTML-pagina's observeert en webnavigatieacties uitvoert, zoals klikken en typen. WebGUM wordt getraind door gezamenlijk een instructie-finetuned taalmodel en een vision transformer te finetunen op een grote corpus van demonstraties. We tonen empirisch aan dat deze aanpak het vermogen van de agent verbetert op het gebied van gegronde visuele perceptie, HTML-begrip en meerstaps redeneren, en daarmee eerdere werken met een aanzienlijke marge overtreft. Op de MiniWoB-benchmark verbeteren we met meer dan 31,9% ten opzichte van de beste offline methoden, en komen we dicht in de buurt van de online-finetuned state-of-the-art (SoTA). Op de WebShop-benchmark behaalt ons 3-miljard-parameter model superieure prestaties ten opzichte van de bestaande SoTA, PaLM-540B. We verzamelen ook 347K hoogwaardige demonstraties met onze getrainde modellen, 38 keer groter dan eerder werk, en stellen deze beschikbaar om toekomstig onderzoek in deze richting te bevorderen.

English

The progress of autonomous web navigation has been hindered by the dependence on billions of exploratory interactions via online reinforcement learning, and domain-specific model designs that make it difficult to leverage generalization from rich out-of-domain data. In this work, we study data-driven offline training for web agents with vision-language foundation models. We propose an instruction-following multimodal agent, WebGUM, that observes both webpage screenshots and HTML pages and outputs web navigation actions, such as click and type. WebGUM is trained by jointly finetuning an instruction-finetuned language model and a vision transformer on a large corpus of demonstrations. We empirically demonstrate this recipe improves the agent's ability of grounded visual perception, HTML comprehension and multi-step reasoning, outperforming prior works by a significant margin. On the MiniWoB benchmark, we improve over the previous best offline methods by more than 31.9%, being close to reaching online-finetuned SoTA. On the WebShop benchmark, our 3-billion-parameter model achieves superior performance to the existing SoTA, PaLM-540B. We also collect 347K high-quality demonstrations using our trained models, 38 times larger than prior work, and make them available to promote future research in this direction.

Multimodale webnavigatie met instructiegefijnde foundation-modellen

Multimodal Web Navigation with Instruction-Finetuned Foundation Models

Samenvatting

Support