ChatPaper.aiChatPaper

OpenWebVoyager: Construção de Agentes Web Multimodais através de Exploração, Feedback e Otimização Iterativos no Mundo Real

OpenWebVoyager: Building Multimodal Web Agents via Iterative Real-World Exploration, Feedback and Optimization

October 25, 2024
Autores: Hongliang He, Wenlin Yao, Kaixin Ma, Wenhao Yu, Hongming Zhang, Tianqing Fang, Zhenzhong Lan, Dong Yu
cs.AI

Resumo

O rápido desenvolvimento de grandes modelos de linguagem e multimodais tem despertado um interesse significativo em utilizar modelos proprietários, como o GPT-4o, para desenvolver agentes autônomos capazes de lidar com cenários do mundo real, como navegação na web. Embora esforços recentes de código aberto tenham tentado capacitar agentes com a habilidade de explorar ambientes e melhorar continuamente ao longo do tempo, eles estão construindo agentes apenas de texto em ambientes sintéticos onde os sinais de recompensa são claramente definidos. Tais agentes têm dificuldade em generalizar para configurações realistas que exigem habilidades de percepção multimodal e carecem de sinais de verdade absoluta. Neste artigo, apresentamos um framework de código aberto projetado para facilitar o desenvolvimento de um agente web multimodal que possa conduzir autonomamente a exploração do mundo real e se aprimorar. Primeiramente, treinamos o modelo base com aprendizado por imitação para adquirir as habilidades básicas. Em seguida, permitimos que o agente explore a web aberta e colete feedback sobre suas trajetórias. Posteriormente, ele aprimora ainda mais sua política aprendendo com trajetórias bem-sucedidas avaliadas por outro modelo de propósito geral. Este ciclo de exploração-feedback-otimização pode continuar por várias iterações. Resultados experimentais mostram que nosso agente web melhora com sucesso a si mesmo após cada iteração, demonstrando um desempenho sólido em diversos conjuntos de testes.
English
The rapid development of large language and multimodal models has sparked significant interest in using proprietary models, such as GPT-4o, to develop autonomous agents capable of handling real-world scenarios like web navigation. Although recent open-source efforts have tried to equip agents with the ability to explore environments and continuously improve over time, they are building text-only agents in synthetic environments where the reward signals are clearly defined. Such agents struggle to generalize to realistic settings that require multimodal perception abilities and lack ground-truth signals. In this paper, we introduce an open-source framework designed to facilitate the development of multimodal web agent that can autonomously conduct real-world exploration and improve itself. We first train the base model with imitation learning to gain the basic abilities. We then let the agent explore the open web and collect feedback on its trajectories. After that, it further improves its policy by learning from well-performing trajectories judged by another general-purpose model. This exploration-feedback-optimization cycle can continue for several iterations. Experimental results show that our web agent successfully improves itself after each iteration, demonstrating strong performance across multiple test sets.

Summary

AI-Generated Summary

PDF172November 16, 2024