Un WebAgent per il mondo reale con pianificazione, comprensione di contesti lunghi e sintesi di programmi
A Real-World WebAgent with Planning, Long Context Understanding, and Program Synthesis
July 24, 2023
Autori: Izzeddin Gur, Hiroki Furuta, Austin Huang, Mustafa Safdari, Yutaka Matsuo, Douglas Eck, Aleksandra Faust
cs.AI
Abstract
I modelli linguistici di grandi dimensioni pre-addestrati (LLM) hanno recentemente ottenuto una migliore generalizzazione ed efficienza campionaria nella navigazione web autonoma. Tuttavia, le prestazioni sui siti web reali hanno ancora sofferto di (1) apertura di dominio, (2) lunghezza limitata del contesto e (3) mancanza di bias induttivo sull'HTML. Introduciamo WebAgent, un agente guidato da LLM in grado di completare i compiti su siti web reali seguendo istruzioni in linguaggio naturale. WebAgent pianifica in anticipo scomponendo le istruzioni in sotto-istruzioni canoniche, riassume lunghi documenti HTML in snippet rilevanti per il compito e agisce sui siti web tramite programmi Python generati da questi. Progettiamo WebAgent con Flan-U-PaLM, per la generazione di codice contestualizzato, e HTML-T5, nuovi LLM pre-addestrati per documenti HTML lunghi che utilizzano meccanismi di attenzione locale e globale e una miscela di obiettivi di denoising a lungo raggio, per la pianificazione e la sintesi. Dimostriamo empiricamente che la nostra ricetta migliora il successo su un sito web reale di oltre il 50% e che HTML-T5 è il modello migliore per risolvere compiti basati su HTML; raggiungendo un tasso di successo del 14,9% superiore rispetto al precedente stato dell'arte sul benchmark di navigazione web MiniWoB e una migliore accuratezza nella valutazione offline della pianificazione dei compiti.
English
Pre-trained large language models (LLMs) have recently achieved better
generalization and sample efficiency in autonomous web navigation. However, the
performance on real-world websites has still suffered from (1) open domainness,
(2) limited context length, and (3) lack of inductive bias on HTML. We
introduce WebAgent, an LLM-driven agent that can complete the tasks on real
websites following natural language instructions. WebAgent plans ahead by
decomposing instructions into canonical sub-instructions, summarizes long HTML
documents into task-relevant snippets, and acts on websites via generated
Python programs from those. We design WebAgent with Flan-U-PaLM, for grounded
code generation, and HTML-T5, new pre-trained LLMs for long HTML documents
using local and global attention mechanisms and a mixture of long-span
denoising objectives, for planning and summarization. We empirically
demonstrate that our recipe improves the success on a real website by over 50%,
and that HTML-T5 is the best model to solve HTML-based tasks; achieving 14.9%
higher success rate than prior SoTA on the MiniWoB web navigation benchmark and
better accuracy on offline task planning evaluation.