Um Agente Web do Mundo Real com Planejamento, Compreensão de Contexto Longo e Síntese de Programas
A Real-World WebAgent with Planning, Long Context Understanding, and Program Synthesis
July 24, 2023
Autores: Izzeddin Gur, Hiroki Furuta, Austin Huang, Mustafa Safdari, Yutaka Matsuo, Douglas Eck, Aleksandra Faust
cs.AI
Resumo
Modelos de linguagem grandes pré-treinados (LLMs) recentemente alcançaram melhor generalização e eficiência amostral na navegação autônoma na web. No entanto, o desempenho em sites do mundo real ainda sofre com (1) abertura de domínio, (2) comprimento limitado de contexto e (3) falta de viés indutivo em HTML. Apresentamos o WebAgent, um agente baseado em LLM que pode completar tarefas em sites reais seguindo instruções em linguagem natural. O WebAgent planeja antecipadamente, decompondo instruções em sub-instruções canônicas, resumindo documentos HTML longos em trechos relevantes para a tarefa e agindo em sites por meio de programas Python gerados a partir desses. Projetamos o WebAgent com Flan-U-PaLM, para geração de código fundamentado, e HTML-T5, novos LLMs pré-treinados para documentos HTML longos, utilizando mecanismos de atenção local e global e uma mistura de objetivos de desruído de longo alcance, para planejamento e sumarização. Demonstramos empiricamente que nossa abordagem melhora a taxa de sucesso em um site real em mais de 50%, e que o HTML-T5 é o melhor modelo para resolver tarefas baseadas em HTML; alcançando uma taxa de sucesso 14,9% maior que o estado da arte anterior no benchmark de navegação web MiniWoB e melhor precisão na avaliação de planejamento de tarefas offline.
English
Pre-trained large language models (LLMs) have recently achieved better
generalization and sample efficiency in autonomous web navigation. However, the
performance on real-world websites has still suffered from (1) open domainness,
(2) limited context length, and (3) lack of inductive bias on HTML. We
introduce WebAgent, an LLM-driven agent that can complete the tasks on real
websites following natural language instructions. WebAgent plans ahead by
decomposing instructions into canonical sub-instructions, summarizes long HTML
documents into task-relevant snippets, and acts on websites via generated
Python programs from those. We design WebAgent with Flan-U-PaLM, for grounded
code generation, and HTML-T5, new pre-trained LLMs for long HTML documents
using local and global attention mechanisms and a mixture of long-span
denoising objectives, for planning and summarization. We empirically
demonstrate that our recipe improves the success on a real website by over 50%,
and that HTML-T5 is the best model to solve HTML-based tasks; achieving 14.9%
higher success rate than prior SoTA on the MiniWoB web navigation benchmark and
better accuracy on offline task planning evaluation.