Navigazione Web Multimodale con Modelli Fondamentali Ottimizzati per Istruzioni

Abstract

Il progresso della navigazione web autonoma è stato ostacolato dalla dipendenza da miliardi di interazioni esplorative tramite apprendimento per rinforzo online e da progetti di modelli specifici per dominio che rendono difficile sfruttare la generalizzazione da dati ricchi provenienti da domini diversi. In questo lavoro, studiamo l'addestramento offline basato sui dati per agenti web con modelli di base visione-linguaggio. Proponiamo un agente multimodale che segue istruzioni, WebGUM, che osserva sia screenshot di pagine web che pagine HTML e produce azioni di navigazione web, come cliccare e digitare. WebGUM viene addestrato attraverso il fine-tuning congiunto di un modello linguistico ottimizzato per seguire istruzioni e di un vision transformer su un ampio corpus di dimostrazioni. Dimostriamo empiricamente che questo approccio migliora la capacità dell'agente di percepire visivamente in modo contestuale, comprendere l'HTML e ragionare in più passaggi, superando significativamente i lavori precedenti. Sul benchmark MiniWoB, miglioriamo rispetto ai migliori metodi offline precedenti di oltre il 31,9%, avvicinandoci allo stato dell'arte ottenuto con fine-tuning online. Sul benchmark WebShop, il nostro modello da 3 miliardi di parametri raggiunge prestazioni superiori rispetto allo stato dell'arte esistente, PaLM-540B. Abbiamo anche raccolto 347.000 dimostrazioni di alta qualità utilizzando i nostri modelli addestrati, 38 volte più numerose rispetto ai lavori precedenti, e le rendiamo disponibili per promuovere future ricerche in questa direzione.

English

The progress of autonomous web navigation has been hindered by the dependence on billions of exploratory interactions via online reinforcement learning, and domain-specific model designs that make it difficult to leverage generalization from rich out-of-domain data. In this work, we study data-driven offline training for web agents with vision-language foundation models. We propose an instruction-following multimodal agent, WebGUM, that observes both webpage screenshots and HTML pages and outputs web navigation actions, such as click and type. WebGUM is trained by jointly finetuning an instruction-finetuned language model and a vision transformer on a large corpus of demonstrations. We empirically demonstrate this recipe improves the agent's ability of grounded visual perception, HTML comprehension and multi-step reasoning, outperforming prior works by a significant margin. On the MiniWoB benchmark, we improve over the previous best offline methods by more than 31.9%, being close to reaching online-finetuned SoTA. On the WebShop benchmark, our 3-billion-parameter model achieves superior performance to the existing SoTA, PaLM-540B. We also collect 347K high-quality demonstrations using our trained models, 38 times larger than prior work, and make them available to promote future research in this direction.

Navigazione Web Multimodale con Modelli Fondamentali Ottimizzati per Istruzioni

Multimodal Web Navigation with Instruction-Finetuned Foundation Models

Abstract

Support