Navegación Web Multimodal con Modelos Fundacionales Ajustados mediante Instrucciones
Multimodal Web Navigation with Instruction-Finetuned Foundation Models
May 19, 2023
Autores: Hiroki Furuta, Ofir Nachum, Kuang-Huei Lee, Yutaka Matsuo, Shixiang Shane Gu, Izzeddin Gur
cs.AI
Resumen
El progreso de la navegación web autónoma se ha visto obstaculizado por la dependencia de miles de millones de interacciones exploratorias mediante aprendizaje por refuerzo en línea, y por diseños de modelos específicos de dominio que dificultan el aprovechamiento de la generalización a partir de datos ricos fuera del dominio. En este trabajo, estudiamos el entrenamiento offline basado en datos para agentes web utilizando modelos fundamentales de visión y lenguaje. Proponemos un agente multimodal que sigue instrucciones, WebGUM, que observa tanto capturas de pantalla de páginas web como páginas HTML y genera acciones de navegación web, como clics y escritura. WebGUM se entrena mediante el ajuste conjunto de un modelo de lenguaje afinado para seguir instrucciones y un transformador de visión en un gran corpus de demostraciones. Demostramos empíricamente que este enfoque mejora la capacidad del agente en percepción visual fundamentada, comprensión de HTML y razonamiento de múltiples pasos, superando significativamente trabajos anteriores. En el benchmark MiniWoB, mejoramos más de un 31,9% sobre los mejores métodos offline previos, acercándonos al estado del arte (SoTA) afinado en línea. En el benchmark WebShop, nuestro modelo de 3 mil millones de parámetros logra un rendimiento superior al SoTA existente, PaLM-540B. También recopilamos 347K demostraciones de alta calidad utilizando nuestros modelos entrenados, 38 veces más que trabajos anteriores, y las ponemos a disposición para fomentar futuras investigaciones en esta dirección.
English
The progress of autonomous web navigation has been hindered by the dependence
on billions of exploratory interactions via online reinforcement learning, and
domain-specific model designs that make it difficult to leverage generalization
from rich out-of-domain data. In this work, we study data-driven offline
training for web agents with vision-language foundation models. We propose an
instruction-following multimodal agent, WebGUM, that observes both webpage
screenshots and HTML pages and outputs web navigation actions, such as click
and type. WebGUM is trained by jointly finetuning an instruction-finetuned
language model and a vision transformer on a large corpus of demonstrations. We
empirically demonstrate this recipe improves the agent's ability of grounded
visual perception, HTML comprehension and multi-step reasoning, outperforming
prior works by a significant margin. On the MiniWoB benchmark, we improve over
the previous best offline methods by more than 31.9%, being close to reaching
online-finetuned SoTA. On the WebShop benchmark, our 3-billion-parameter model
achieves superior performance to the existing SoTA, PaLM-540B. We also collect
347K high-quality demonstrations using our trained models, 38 times larger than
prior work, and make them available to promote future research in this
direction.