ChatPaper.aiChatPaper

Um Agente Web do Mundo Real com Planejamento, Compreensão de Contexto Longo e Síntese de Programas

A Real-World WebAgent with Planning, Long Context Understanding, and Program Synthesis

July 24, 2023
Autores: Izzeddin Gur, Hiroki Furuta, Austin Huang, Mustafa Safdari, Yutaka Matsuo, Douglas Eck, Aleksandra Faust
cs.AI

Resumo

Modelos de linguagem grandes pré-treinados (LLMs) recentemente alcançaram melhor generalização e eficiência amostral na navegação autônoma na web. No entanto, o desempenho em sites do mundo real ainda sofre com (1) abertura de domínio, (2) comprimento limitado de contexto e (3) falta de viés indutivo em HTML. Apresentamos o WebAgent, um agente baseado em LLM que pode completar tarefas em sites reais seguindo instruções em linguagem natural. O WebAgent planeja antecipadamente, decompondo instruções em sub-instruções canônicas, resumindo documentos HTML longos em trechos relevantes para a tarefa e agindo em sites por meio de programas Python gerados a partir desses. Projetamos o WebAgent com Flan-U-PaLM, para geração de código fundamentado, e HTML-T5, novos LLMs pré-treinados para documentos HTML longos, utilizando mecanismos de atenção local e global e uma mistura de objetivos de desruído de longo alcance, para planejamento e sumarização. Demonstramos empiricamente que nossa abordagem melhora a taxa de sucesso em um site real em mais de 50%, e que o HTML-T5 é o melhor modelo para resolver tarefas baseadas em HTML; alcançando uma taxa de sucesso 14,9% maior que o estado da arte anterior no benchmark de navegação web MiniWoB e melhor precisão na avaliação de planejamento de tarefas offline.
English
Pre-trained large language models (LLMs) have recently achieved better generalization and sample efficiency in autonomous web navigation. However, the performance on real-world websites has still suffered from (1) open domainness, (2) limited context length, and (3) lack of inductive bias on HTML. We introduce WebAgent, an LLM-driven agent that can complete the tasks on real websites following natural language instructions. WebAgent plans ahead by decomposing instructions into canonical sub-instructions, summarizes long HTML documents into task-relevant snippets, and acts on websites via generated Python programs from those. We design WebAgent with Flan-U-PaLM, for grounded code generation, and HTML-T5, new pre-trained LLMs for long HTML documents using local and global attention mechanisms and a mixture of long-span denoising objectives, for planning and summarization. We empirically demonstrate that our recipe improves the success on a real website by over 50%, and that HTML-T5 is the best model to solve HTML-based tasks; achieving 14.9% higher success rate than prior SoTA on the MiniWoB web navigation benchmark and better accuracy on offline task planning evaluation.
PDF362December 15, 2024