Um Agente Web do Mundo Real com Planejamento, Compreensão de Contexto Longo e Síntese de Programas

Resumo

Modelos de linguagem grandes pré-treinados (LLMs) recentemente alcançaram melhor generalização e eficiência amostral na navegação autônoma na web. No entanto, o desempenho em sites do mundo real ainda sofre com (1) abertura de domínio, (2) comprimento limitado de contexto e (3) falta de viés indutivo em HTML. Apresentamos o WebAgent, um agente baseado em LLM que pode completar tarefas em sites reais seguindo instruções em linguagem natural. O WebAgent planeja antecipadamente, decompondo instruções em sub-instruções canônicas, resumindo documentos HTML longos em trechos relevantes para a tarefa e agindo em sites por meio de programas Python gerados a partir desses. Projetamos o WebAgent com Flan-U-PaLM, para geração de código fundamentado, e HTML-T5, novos LLMs pré-treinados para documentos HTML longos, utilizando mecanismos de atenção local e global e uma mistura de objetivos de desruído de longo alcance, para planejamento e sumarização. Demonstramos empiricamente que nossa abordagem melhora a taxa de sucesso em um site real em mais de 50%, e que o HTML-T5 é o melhor modelo para resolver tarefas baseadas em HTML; alcançando uma taxa de sucesso 14,9% maior que o estado da arte anterior no benchmark de navegação web MiniWoB e melhor precisão na avaliação de planejamento de tarefas offline.

English

Pre-trained large language models (LLMs) have recently achieved better generalization and sample efficiency in autonomous web navigation. However, the performance on real-world websites has still suffered from (1) open domainness, (2) limited context length, and (3) lack of inductive bias on HTML. We introduce WebAgent, an LLM-driven agent that can complete the tasks on real websites following natural language instructions. WebAgent plans ahead by decomposing instructions into canonical sub-instructions, summarizes long HTML documents into task-relevant snippets, and acts on websites via generated Python programs from those. We design WebAgent with Flan-U-PaLM, for grounded code generation, and HTML-T5, new pre-trained LLMs for long HTML documents using local and global attention mechanisms and a mixture of long-span denoising objectives, for planning and summarization. We empirically demonstrate that our recipe improves the success on a real website by over 50%, and that HTML-T5 is the best model to solve HTML-based tasks; achieving 14.9% higher success rate than prior SoTA on the MiniWoB web navigation benchmark and better accuracy on offline task planning evaluation.

Um Agente Web do Mundo Real com Planejamento, Compreensão de Contexto Longo e Síntese de Programas

A Real-World WebAgent with Planning, Long Context Understanding, and Program Synthesis

Resumo

Support