ChatPaper.aiChatPaper

Мультимодальная навигация в вебе с использованием базовых моделей, дообученных на инструкциях

Multimodal Web Navigation with Instruction-Finetuned Foundation Models

May 19, 2023
Авторы: Hiroki Furuta, Ofir Nachum, Kuang-Huei Lee, Yutaka Matsuo, Shixiang Shane Gu, Izzeddin Gur
cs.AI

Аннотация

Прогресс в области автономной навигации в веб-пространстве был ограничен зависимостью от миллиардов исследовательских взаимодействий через обучение с подкреплением в онлайн-режиме, а также специфическими для домена моделями, которые затрудняют использование обобщений из богатых данных вне домена. В данной работе мы исследуем обучение веб-агентов на основе данных в автономном режиме с использованием мультимодальных моделей, основанных на обработке изображений и текста. Мы предлагаем мультимодального агента, следующего инструкциям, — WebGUM, который анализирует как скриншоты веб-страниц, так и их HTML-код, и выполняет действия навигации, такие как клики и ввод текста. WebGUM обучается путем совместной тонкой настройки языковой модели, адаптированной для выполнения инструкций, и трансформера для обработки изображений на большом корпусе демонстраций. Мы эмпирически показываем, что такой подход улучшает способности агента к визуальному восприятию, пониманию HTML и многошаговому рассуждению, значительно превосходя предыдущие работы. На бенчмарке MiniWoB мы улучшаем результаты лучших автономных методов более чем на 31,9%, приближаясь к уровню современных методов, обученных в онлайн-режиме. На бенчмарке WebShop наша модель с 3 миллиардами параметров демонстрирует превосходную производительность по сравнению с существующим современным методом PaLM-540B. Мы также собираем 347 тысяч высококачественных демонстраций с использованием наших обученных моделей, что в 38 раз больше, чем в предыдущих работах, и делаем их доступными для содействия дальнейшим исследованиям в этом направлении.
English
The progress of autonomous web navigation has been hindered by the dependence on billions of exploratory interactions via online reinforcement learning, and domain-specific model designs that make it difficult to leverage generalization from rich out-of-domain data. In this work, we study data-driven offline training for web agents with vision-language foundation models. We propose an instruction-following multimodal agent, WebGUM, that observes both webpage screenshots and HTML pages and outputs web navigation actions, such as click and type. WebGUM is trained by jointly finetuning an instruction-finetuned language model and a vision transformer on a large corpus of demonstrations. We empirically demonstrate this recipe improves the agent's ability of grounded visual perception, HTML comprehension and multi-step reasoning, outperforming prior works by a significant margin. On the MiniWoB benchmark, we improve over the previous best offline methods by more than 31.9%, being close to reaching online-finetuned SoTA. On the WebShop benchmark, our 3-billion-parameter model achieves superior performance to the existing SoTA, PaLM-540B. We also collect 347K high-quality demonstrations using our trained models, 38 times larger than prior work, and make them available to promote future research in this direction.
PDF50December 15, 2024