Navigation Web Multimodale avec des Modèles de Fondation Affinés par Instruction

Résumé

Les progrès de la navigation web autonome ont été entravés par la dépendance à des milliards d'interactions exploratoires via l'apprentissage par renforcement en ligne, ainsi que par des conceptions de modèles spécifiques à un domaine qui rendent difficile l'exploitation de la généralisation à partir de données riches hors domaine. Dans ce travail, nous étudions l'entraînement hors ligne basé sur les données pour des agents web utilisant des modèles de fondation vision-langage. Nous proposons un agent multimodal suivant des instructions, WebGUM, qui observe à la fois des captures d'écran de pages web et des pages HTML, et produit des actions de navigation web, telles que cliquer et taper. WebGUM est entraîné en affinant conjointement un modèle de langage ajusté aux instructions et un transformeur de vision sur un large corpus de démonstrations. Nous démontrons empiriquement que cette approche améliore la capacité de l'agent en perception visuelle ancrée, en compréhension HTML et en raisonnement multi-étapes, surpassant de manière significative les travaux précédents. Sur le benchmark MiniWoB, nous améliorons de plus de 31,9% les meilleures méthodes hors ligne précédentes, nous rapprochant de l'état de l'art affiné en ligne. Sur le benchmark WebShop, notre modèle de 3 milliards de paramètres atteint une performance supérieure à l'état de l'art existant, PaLM-540B. Nous collectons également 347K démonstrations de haute qualité en utilisant nos modèles entraînés, soit 38 fois plus que les travaux précédents, et les rendons disponibles pour promouvoir les recherches futures dans cette direction.

English

The progress of autonomous web navigation has been hindered by the dependence on billions of exploratory interactions via online reinforcement learning, and domain-specific model designs that make it difficult to leverage generalization from rich out-of-domain data. In this work, we study data-driven offline training for web agents with vision-language foundation models. We propose an instruction-following multimodal agent, WebGUM, that observes both webpage screenshots and HTML pages and outputs web navigation actions, such as click and type. WebGUM is trained by jointly finetuning an instruction-finetuned language model and a vision transformer on a large corpus of demonstrations. We empirically demonstrate this recipe improves the agent's ability of grounded visual perception, HTML comprehension and multi-step reasoning, outperforming prior works by a significant margin. On the MiniWoB benchmark, we improve over the previous best offline methods by more than 31.9%, being close to reaching online-finetuned SoTA. On the WebShop benchmark, our 3-billion-parameter model achieves superior performance to the existing SoTA, PaLM-540B. We also collect 347K high-quality demonstrations using our trained models, 38 times larger than prior work, and make them available to promote future research in this direction.

Navigation Web Multimodale avec des Modèles de Fondation Affinés par Instruction

Multimodal Web Navigation with Instruction-Finetuned Foundation Models

Résumé

Support