ChatPaper.aiChatPaper

WebVoyager: Construyendo un Agente Web de Extremo a Extremo con Modelos Multimodales de Gran Escala

WebVoyager: Building an End-to-End Web Agent with Large Multimodal Models

January 25, 2024
Autores: Hongliang He, Wenlin Yao, Kaixin Ma, Wenhao Yu, Yong Dai, Hongming Zhang, Zhenzhong Lan, Dong Yu
cs.AI

Resumen

El avance de los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) marca el inicio de una nueva era caracterizada por el desarrollo de aplicaciones autónomas en el mundo real, lo que impulsa la innovación en la creación de agentes web avanzados. Los agentes web existentes suelen manejar solo una modalidad de entrada y se evalúan únicamente en simuladores web simplificados o instantáneas estáticas de páginas web, lo que limita considerablemente su aplicabilidad en escenarios del mundo real. Para cerrar esta brecha, presentamos WebVoyager, un innovador agente web basado en un Modelo Multimodal de Gran Escala (LMM, por sus siglas en inglés) que puede completar instrucciones de los usuarios de extremo a extremo mediante la interacción con sitios web reales. Además, proponemos un nuevo protocolo de evaluación para agentes web que aborda los desafíos de la evaluación automática de tareas abiertas de agentes web, aprovechando las robustas capacidades de comprensión multimodal de GPT-4V. Creamos un nuevo punto de referencia al recopilar tareas del mundo real de 15 sitios web ampliamente utilizados para evaluar nuestros agentes. Demostramos que WebVoyager alcanza una tasa de éxito en tareas del 55.7%, superando significativamente el rendimiento tanto de GPT-4 (con todas las herramientas) como de la configuración de WebVoyager (solo texto), lo que subraya la capacidad excepcional de WebVoyager en aplicaciones prácticas. Descubrimos que nuestra evaluación automática propuesta alcanza un 85.3% de concordancia con el juicio humano, allanando el camino para el desarrollo futuro de agentes web en entornos del mundo real.
English
The advancement of large language models (LLMs) leads to a new era marked by the development of autonomous applications in the real world, which drives innovation in the creation of advanced web-based agents. Existing web agents typically only handle one input modality and are evaluated only in simplified web simulators or static web snapshots, greatly limiting their applicability in real-world scenarios. To bridge this gap, we introduce WebVoyager, an innovative Large Multimodal Model (LMM) powered web agent that can complete user instructions end-to-end by interacting with real-world websites. Moreover, we propose a new evaluation protocol for web agents to address the challenges of automatic evaluation of open-ended web agent tasks, leveraging the robust multimodal comprehension capabilities of GPT-4V. We create a new benchmark by gathering real-world tasks from 15 widely used websites to evaluate our agents. We show that WebVoyager achieves a 55.7% task success rate, significantly surpassing the performance of both GPT-4 (All Tools) and the WebVoyager (text-only) setups, underscoring the exceptional capability of WebVoyager in practical applications. We found that our proposed automatic evaluation achieves 85.3% agreement with human judgment, paving the way for further development of web agents in a real-world setting.
PDF324December 15, 2024