Multimodale Webnavigation mit instruktionsfeinabgestimmten Foundation-Modellen
Multimodal Web Navigation with Instruction-Finetuned Foundation Models
May 19, 2023
Autoren: Hiroki Furuta, Ofir Nachum, Kuang-Huei Lee, Yutaka Matsuo, Shixiang Shane Gu, Izzeddin Gur
cs.AI
Zusammenfassung
Der Fortschritt im Bereich der autonomen Webnavigation wurde durch die Abhängigkeit von Milliarden explorativer Interaktionen mittels Online-Reinforcement-Learning sowie durch domänenspezifische Modellentwürfe behindert, die es erschweren, die Generalisierung aus umfangreichen Daten außerhalb der Domäne zu nutzen. In dieser Arbeit untersuchen wir das datengetriebene Offline-Training für Webagenten mit Vision-Language-Foundation-Modellen. Wir stellen einen instruktionsfolgenden multimodalen Agenten namens WebGUM vor, der sowohl Screenshots von Webseiten als auch HTML-Seiten beobachtet und Webnavigationsaktionen wie Klicken und Tippen ausgibt. WebGUM wird durch gemeinsames Finetuning eines instruktionsfinetunten Sprachmodells und eines Vision Transformers auf einem großen Korpus von Demonstrationen trainiert. Wir zeigen empirisch, dass dieser Ansatz die Fähigkeiten des Agenten in Bezug auf fundierte visuelle Wahrnehmung, HTML-Verständnis und mehrschrittiges Denken verbessert und dabei frühere Arbeiten deutlich übertrifft. Auf dem MiniWoB-Benchmark verbessern wir die bisher besten Offline-Methoden um mehr als 31,9 % und nähern uns dem Online-finetuned State-of-the-Art (SoTA) an. Auf dem WebShop-Benchmark erreicht unser 3-Milliarden-Parameter-Modell eine überlegene Leistung gegenüber dem bestehenden SoTA, PaLM-540B. Wir sammeln außerdem 347.000 hochwertige Demonstrationen mit unseren trainierten Modellen, was 38-mal mehr ist als in früheren Arbeiten, und stellen sie zur Verfügung, um zukünftige Forschung in dieser Richtung zu fördern.
English
The progress of autonomous web navigation has been hindered by the dependence
on billions of exploratory interactions via online reinforcement learning, and
domain-specific model designs that make it difficult to leverage generalization
from rich out-of-domain data. In this work, we study data-driven offline
training for web agents with vision-language foundation models. We propose an
instruction-following multimodal agent, WebGUM, that observes both webpage
screenshots and HTML pages and outputs web navigation actions, such as click
and type. WebGUM is trained by jointly finetuning an instruction-finetuned
language model and a vision transformer on a large corpus of demonstrations. We
empirically demonstrate this recipe improves the agent's ability of grounded
visual perception, HTML comprehension and multi-step reasoning, outperforming
prior works by a significant margin. On the MiniWoB benchmark, we improve over
the previous best offline methods by more than 31.9%, being close to reaching
online-finetuned SoTA. On the WebShop benchmark, our 3-billion-parameter model
achieves superior performance to the existing SoTA, PaLM-540B. We also collect
347K high-quality demonstrations using our trained models, 38 times larger than
prior work, and make them available to promote future research in this
direction.