ChatPaper.aiChatPaper

OpenWebVoyager: Construyendo Agentes Web Multimodales a través de Exploración, Retroalimentación y Optimización Iterativas en el Mundo Real.

OpenWebVoyager: Building Multimodal Web Agents via Iterative Real-World Exploration, Feedback and Optimization

October 25, 2024
Autores: Hongliang He, Wenlin Yao, Kaixin Ma, Wenhao Yu, Hongming Zhang, Tianqing Fang, Zhenzhong Lan, Dong Yu
cs.AI

Resumen

El rápido desarrollo de modelos de lenguaje grandes y multimodales ha generado un gran interés en el uso de modelos propietarios, como GPT-4o, para desarrollar agentes autónomos capaces de manejar escenarios del mundo real como la navegación web. Aunque recientes esfuerzos de código abierto han intentado equipar a los agentes con la capacidad de explorar entornos y mejorar continuamente con el tiempo, están construyendo agentes solo de texto en entornos sintéticos donde las señales de recompensa están claramente definidas. Dichos agentes tienen dificultades para generalizar a entornos realistas que requieren habilidades de percepción multimodal y carecen de señales de verdad absoluta. En este documento, presentamos un marco de código abierto diseñado para facilitar el desarrollo de un agente web multimodal que pueda llevar a cabo exploraciones del mundo real de forma autónoma y mejorar por sí mismo. Primero entrenamos el modelo base con aprendizaje por imitación para adquirir las habilidades básicas. Luego permitimos que el agente explore la web abierta y recolecte retroalimentación sobre sus trayectorias. Después, mejora aún más su política aprendiendo de trayectorias con buen rendimiento evaluadas por otro modelo de propósito general. Este ciclo de exploración-retroalimentación-optimización puede continuar durante varias iteraciones. Los resultados experimentales muestran que nuestro agente web mejora exitosamente después de cada iteración, demostrando un rendimiento sólido en múltiples conjuntos de pruebas.
English
The rapid development of large language and multimodal models has sparked significant interest in using proprietary models, such as GPT-4o, to develop autonomous agents capable of handling real-world scenarios like web navigation. Although recent open-source efforts have tried to equip agents with the ability to explore environments and continuously improve over time, they are building text-only agents in synthetic environments where the reward signals are clearly defined. Such agents struggle to generalize to realistic settings that require multimodal perception abilities and lack ground-truth signals. In this paper, we introduce an open-source framework designed to facilitate the development of multimodal web agent that can autonomously conduct real-world exploration and improve itself. We first train the base model with imitation learning to gain the basic abilities. We then let the agent explore the open web and collect feedback on its trajectories. After that, it further improves its policy by learning from well-performing trajectories judged by another general-purpose model. This exploration-feedback-optimization cycle can continue for several iterations. Experimental results show that our web agent successfully improves itself after each iteration, demonstrating strong performance across multiple test sets.

Summary

AI-Generated Summary

PDF172November 16, 2024