GPT-4V(isión) es un Agente Web Generalista, si está Fundamentado

Resumen

El reciente desarrollo de los modelos multimodales grandes (LMMs), especialmente GPT-4V(isión) y Gemini, ha estado expandiendo rápidamente los límites de capacidad de los modelos multimodales más allá de tareas tradicionales como la generación de descripciones de imágenes y la respuesta a preguntas visuales. En este trabajo, exploramos el potencial de LMMs como GPT-4V como agentes web generalistas que pueden seguir instrucciones en lenguaje natural para completar tareas en cualquier sitio web dado. Proponemos SEEACT, un agente web generalista que aprovecha el poder de los LMMs para la comprensión visual integrada y la actuación en la web. Evaluamos en el reciente benchmark MIND2WEB. Además de la evaluación estándar offline en sitios web almacenados en caché, habilitamos un nuevo entorno de evaluación online mediante el desarrollo de una herramienta que permite ejecutar agentes web en sitios web en vivo. Demostramos que GPT-4V presenta un gran potencial para los agentes web: puede completar con éxito el 50% de las tareas en sitios web en vivo si fundamentamos manualmente sus planes textuales en acciones en los sitios web. Esto supera sustancialmente a LLMs basados únicamente en texto como GPT-4 o modelos más pequeños (FLAN-T5 y BLIP-2) específicamente ajustados para agentes web. Sin embargo, la fundamentación sigue siendo un desafío importante. Las estrategias de fundamentación existentes para LMMs, como el prompting de conjunto de marcas, resultan no ser efectivas para agentes web, y la mejor estrategia de fundamentación que desarrollamos en este artículo aprovecha tanto el texto HTML como los elementos visuales. Aún así, existe una brecha considerable con la fundamentación oráculo, dejando un amplio margen para futuras mejoras.

English

The recent development on large multimodal models (LMMs), especially GPT-4V(ision) and Gemini, has been quickly expanding the capability boundaries of multimodal models beyond traditional tasks like image captioning and visual question answering. In this work, we explore the potential of LMMs like GPT-4V as a generalist web agent that can follow natural language instructions to complete tasks on any given website. We propose SEEACT, a generalist web agent that harnesses the power of LMMs for integrated visual understanding and acting on the web. We evaluate on the recent MIND2WEB benchmark. In addition to standard offline evaluation on cached websites, we enable a new online evaluation setting by developing a tool that allows running web agents on live websites. We show that GPT-4V presents a great potential for web agents - it can successfully complete 50% of the tasks on live websites if we manually ground its textual plans into actions on the websites. This substantially outperforms text-only LLMs like GPT-4 or smaller models (FLAN-T5 and BLIP-2) specifically fine-tuned for web agents. However, grounding still remains a major challenge. Existing LMM grounding strategies like set-of-mark prompting turns out not effective for web agents, and the best grounding strategy we develop in this paper leverages both the HTML text and visuals. Yet, there is still a substantial gap with oracle grounding, leaving ample room for further improvement.

GPT-4V(isión) es un Agente Web Generalista, si está Fundamentado

GPT-4V(ision) is a Generalist Web Agent, if Grounded

Resumen

Support