Navegação Multimodal na Web com Modelos de Fundamento Ajustados por Instrução

Resumo

O progresso da navegação web autônoma tem sido dificultado pela dependência de bilhões de interações exploratórias via aprendizado por reforço online e por designs de modelos específicos de domínio que dificultam a generalização a partir de dados ricos fora do domínio. Neste trabalho, estudamos o treinamento offline orientado por dados para agentes web com modelos de base visão-linguagem. Propomos um agente multimodal que segue instruções, o WebGUM, que observa tanto capturas de tela de páginas web quanto páginas HTML e gera ações de navegação web, como clicar e digitar. O WebGUM é treinado por meio do ajuste fino conjunto de um modelo de linguagem ajustado para seguir instruções e de um vision transformer em um grande corpus de demonstrações. Demonstramos empiricamente que essa abordagem melhora a capacidade do agente em percepção visual fundamentada, compreensão de HTML e raciocínio multi-etapas, superando trabalhos anteriores por uma margem significativa. No benchmark MiniWoB, melhoramos os melhores métodos offline anteriores em mais de 31,9%, chegando próximo ao estado da arte (SoTA) ajustado online. No benchmark WebShop, nosso modelo de 3 bilhões de parâmetros alcança desempenho superior ao SoTA existente, o PaLM-540B. Também coletamos 347 mil demonstrações de alta qualidade usando nossos modelos treinados, 38 vezes maior que trabalhos anteriores, e as disponibilizamos para promover pesquisas futuras nessa direção.

English

The progress of autonomous web navigation has been hindered by the dependence on billions of exploratory interactions via online reinforcement learning, and domain-specific model designs that make it difficult to leverage generalization from rich out-of-domain data. In this work, we study data-driven offline training for web agents with vision-language foundation models. We propose an instruction-following multimodal agent, WebGUM, that observes both webpage screenshots and HTML pages and outputs web navigation actions, such as click and type. WebGUM is trained by jointly finetuning an instruction-finetuned language model and a vision transformer on a large corpus of demonstrations. We empirically demonstrate this recipe improves the agent's ability of grounded visual perception, HTML comprehension and multi-step reasoning, outperforming prior works by a significant margin. On the MiniWoB benchmark, we improve over the previous best offline methods by more than 31.9%, being close to reaching online-finetuned SoTA. On the WebShop benchmark, our 3-billion-parameter model achieves superior performance to the existing SoTA, PaLM-540B. We also collect 347K high-quality demonstrations using our trained models, 38 times larger than prior work, and make them available to promote future research in this direction.

Navegação Multimodal na Web com Modelos de Fundamento Ajustados por Instrução

Multimodal Web Navigation with Instruction-Finetuned Foundation Models

Resumo

Support