Navigazione Web Multimodale con Modelli Fondamentali Ottimizzati per Istruzioni
Multimodal Web Navigation with Instruction-Finetuned Foundation Models
May 19, 2023
Autori: Hiroki Furuta, Ofir Nachum, Kuang-Huei Lee, Yutaka Matsuo, Shixiang Shane Gu, Izzeddin Gur
cs.AI
Abstract
Il progresso della navigazione web autonoma è stato ostacolato dalla dipendenza da miliardi di interazioni esplorative tramite apprendimento per rinforzo online e da progetti di modelli specifici per dominio che rendono difficile sfruttare la generalizzazione da dati ricchi provenienti da domini diversi. In questo lavoro, studiamo l'addestramento offline basato sui dati per agenti web con modelli di base visione-linguaggio. Proponiamo un agente multimodale che segue istruzioni, WebGUM, che osserva sia screenshot di pagine web che pagine HTML e produce azioni di navigazione web, come cliccare e digitare. WebGUM viene addestrato attraverso il fine-tuning congiunto di un modello linguistico ottimizzato per seguire istruzioni e di un vision transformer su un ampio corpus di dimostrazioni. Dimostriamo empiricamente che questo approccio migliora la capacità dell'agente di percepire visivamente in modo contestuale, comprendere l'HTML e ragionare in più passaggi, superando significativamente i lavori precedenti. Sul benchmark MiniWoB, miglioriamo rispetto ai migliori metodi offline precedenti di oltre il 31,9%, avvicinandoci allo stato dell'arte ottenuto con fine-tuning online. Sul benchmark WebShop, il nostro modello da 3 miliardi di parametri raggiunge prestazioni superiori rispetto allo stato dell'arte esistente, PaLM-540B. Abbiamo anche raccolto 347.000 dimostrazioni di alta qualità utilizzando i nostri modelli addestrati, 38 volte più numerose rispetto ai lavori precedenti, e le rendiamo disponibili per promuovere future ricerche in questa direzione.
English
The progress of autonomous web navigation has been hindered by the dependence
on billions of exploratory interactions via online reinforcement learning, and
domain-specific model designs that make it difficult to leverage generalization
from rich out-of-domain data. In this work, we study data-driven offline
training for web agents with vision-language foundation models. We propose an
instruction-following multimodal agent, WebGUM, that observes both webpage
screenshots and HTML pages and outputs web navigation actions, such as click
and type. WebGUM is trained by jointly finetuning an instruction-finetuned
language model and a vision transformer on a large corpus of demonstrations. We
empirically demonstrate this recipe improves the agent's ability of grounded
visual perception, HTML comprehension and multi-step reasoning, outperforming
prior works by a significant margin. On the MiniWoB benchmark, we improve over
the previous best offline methods by more than 31.9%, being close to reaching
online-finetuned SoTA. On the WebShop benchmark, our 3-billion-parameter model
achieves superior performance to the existing SoTA, PaLM-540B. We also collect
347K high-quality demonstrations using our trained models, 38 times larger than
prior work, and make them available to promote future research in this
direction.