Navigation Web Multimodale avec des Modèles de Fondation Affinés par Instruction
Multimodal Web Navigation with Instruction-Finetuned Foundation Models
May 19, 2023
Auteurs: Hiroki Furuta, Ofir Nachum, Kuang-Huei Lee, Yutaka Matsuo, Shixiang Shane Gu, Izzeddin Gur
cs.AI
Résumé
Les progrès de la navigation web autonome ont été entravés par la dépendance à des milliards d'interactions exploratoires via l'apprentissage par renforcement en ligne, ainsi que par des conceptions de modèles spécifiques à un domaine qui rendent difficile l'exploitation de la généralisation à partir de données riches hors domaine. Dans ce travail, nous étudions l'entraînement hors ligne basé sur les données pour des agents web utilisant des modèles de fondation vision-langage. Nous proposons un agent multimodal suivant des instructions, WebGUM, qui observe à la fois des captures d'écran de pages web et des pages HTML, et produit des actions de navigation web, telles que cliquer et taper. WebGUM est entraîné en affinant conjointement un modèle de langage ajusté aux instructions et un transformeur de vision sur un large corpus de démonstrations. Nous démontrons empiriquement que cette approche améliore la capacité de l'agent en perception visuelle ancrée, en compréhension HTML et en raisonnement multi-étapes, surpassant de manière significative les travaux précédents. Sur le benchmark MiniWoB, nous améliorons de plus de 31,9% les meilleures méthodes hors ligne précédentes, nous rapprochant de l'état de l'art affiné en ligne. Sur le benchmark WebShop, notre modèle de 3 milliards de paramètres atteint une performance supérieure à l'état de l'art existant, PaLM-540B. Nous collectons également 347K démonstrations de haute qualité en utilisant nos modèles entraînés, soit 38 fois plus que les travaux précédents, et les rendons disponibles pour promouvoir les recherches futures dans cette direction.
English
The progress of autonomous web navigation has been hindered by the dependence
on billions of exploratory interactions via online reinforcement learning, and
domain-specific model designs that make it difficult to leverage generalization
from rich out-of-domain data. In this work, we study data-driven offline
training for web agents with vision-language foundation models. We propose an
instruction-following multimodal agent, WebGUM, that observes both webpage
screenshots and HTML pages and outputs web navigation actions, such as click
and type. WebGUM is trained by jointly finetuning an instruction-finetuned
language model and a vision transformer on a large corpus of demonstrations. We
empirically demonstrate this recipe improves the agent's ability of grounded
visual perception, HTML comprehension and multi-step reasoning, outperforming
prior works by a significant margin. On the MiniWoB benchmark, we improve over
the previous best offline methods by more than 31.9%, being close to reaching
online-finetuned SoTA. On the WebShop benchmark, our 3-billion-parameter model
achieves superior performance to the existing SoTA, PaLM-540B. We also collect
347K high-quality demonstrations using our trained models, 38 times larger than
prior work, and make them available to promote future research in this
direction.