ChatPaper.aiChatPaper

OpenWebVoyager: Построение мультимодальных веб-агентов через итеративное исследование реального мира, обратную связь и оптимизацию.

OpenWebVoyager: Building Multimodal Web Agents via Iterative Real-World Exploration, Feedback and Optimization

October 25, 2024
Авторы: Hongliang He, Wenlin Yao, Kaixin Ma, Wenhao Yu, Hongming Zhang, Tianqing Fang, Zhenzhong Lan, Dong Yu
cs.AI

Аннотация

Быстрое развитие крупных языковых и мультимодальных моделей вызвало значительный интерес к использованию собственных моделей, таких как GPT-4o, для разработки автономных агентов, способных обрабатывать реальные сценарии, такие как навигация в Интернете. Хотя недавние усилия в области открытого исходного кода пытались оснастить агентов способностью исследовать окружающую среду и непрерывно совершенствоваться со временем, они создают агентов только для текста в синтетических средах, где сигналы вознаграждения четко определены. Такие агенты испытывают трудности с обобщением на реалистичные сценарии, требующие мультимодальных способностей восприятия и лишенные точных сигналов истинности. В данной статье мы представляем фреймворк с открытым исходным кодом, разработанный для облегчения разработки мультимодального веб-агента, способного автономно проводить исследования в реальном мире и совершенствовать себя. Сначала мы обучаем базовую модель с помощью обучения по имитации для приобретения базовых способностей. Затем мы позволяем агенту исследовать открытый веб и собирать обратную связь по своим траекториям. После этого он дополнительно улучшает свою стратегию, учась на основе хорошо себя показывающих траекторий, оцененных другой универсальной моделью. Этот цикл исследования-обратной связи-оптимизации может продолжаться несколько итераций. Экспериментальные результаты показывают, что наш веб-агент успешно улучшает себя после каждой итерации, демонстрируя высокую производительность на нескольких тестовых наборах.
English
The rapid development of large language and multimodal models has sparked significant interest in using proprietary models, such as GPT-4o, to develop autonomous agents capable of handling real-world scenarios like web navigation. Although recent open-source efforts have tried to equip agents with the ability to explore environments and continuously improve over time, they are building text-only agents in synthetic environments where the reward signals are clearly defined. Such agents struggle to generalize to realistic settings that require multimodal perception abilities and lack ground-truth signals. In this paper, we introduce an open-source framework designed to facilitate the development of multimodal web agent that can autonomously conduct real-world exploration and improve itself. We first train the base model with imitation learning to gain the basic abilities. We then let the agent explore the open web and collect feedback on its trajectories. After that, it further improves its policy by learning from well-performing trajectories judged by another general-purpose model. This exploration-feedback-optimization cycle can continue for several iterations. Experimental results show that our web agent successfully improves itself after each iteration, demonstrating strong performance across multiple test sets.

Summary

AI-Generated Summary

PDF172November 16, 2024