Een Real-World WebAgent met Planning, Begrip van Lange Contexten en Programmasynthese
A Real-World WebAgent with Planning, Long Context Understanding, and Program Synthesis
July 24, 2023
Auteurs: Izzeddin Gur, Hiroki Furuta, Austin Huang, Mustafa Safdari, Yutaka Matsuo, Douglas Eck, Aleksandra Faust
cs.AI
Samenvatting
Voorgetrainde grote taalmodellen (LLMs) hebben recent betere generalisatie en steekproefefficiëntie bereikt in autonoom webnavigatie. De prestaties op echte websites hebben echter nog steeds te lijden onder (1) open domeinheid, (2) beperkte contextlengte, en (3) gebrek aan inductieve bias op HTML. Wij introduceren WebAgent, een LLM-gestuurde agent die taken op echte websites kan voltooien door natuurlijke taal instructies te volgen. WebAgent plant vooruit door instructies op te splitsen in canonieke sub-instructies, vat lange HTML-documenten samen in taakgerichte fragmenten, en handelt op websites via gegenereerde Python-programma's die daaruit voortkomen. We ontwerpen WebAgent met Flan-U-PaLM, voor gegronde codegeneratie, en HTML-T5, nieuwe voorgetrainde LLMs voor lange HTML-documenten die gebruikmaken van lokale en globale aandachtmechanismen en een mix van lange-span denoisingsdoelstellingen, voor planning en samenvatting. We tonen empirisch aan dat onze aanpak het succes op een echte website met meer dan 50% verbetert, en dat HTML-T5 het beste model is om HTML-gebaseerde taken op te lossen; het behaalt een 14,9% hoger slagingspercentage dan de vorige state-of-the-art op de MiniWoB webnavigatiebenchmark en betere nauwkeurigheid bij offline taakplanningsevaluatie.
English
Pre-trained large language models (LLMs) have recently achieved better
generalization and sample efficiency in autonomous web navigation. However, the
performance on real-world websites has still suffered from (1) open domainness,
(2) limited context length, and (3) lack of inductive bias on HTML. We
introduce WebAgent, an LLM-driven agent that can complete the tasks on real
websites following natural language instructions. WebAgent plans ahead by
decomposing instructions into canonical sub-instructions, summarizes long HTML
documents into task-relevant snippets, and acts on websites via generated
Python programs from those. We design WebAgent with Flan-U-PaLM, for grounded
code generation, and HTML-T5, new pre-trained LLMs for long HTML documents
using local and global attention mechanisms and a mixture of long-span
denoising objectives, for planning and summarization. We empirically
demonstrate that our recipe improves the success on a real website by over 50%,
and that HTML-T5 is the best model to solve HTML-based tasks; achieving 14.9%
higher success rate than prior SoTA on the MiniWoB web navigation benchmark and
better accuracy on offline task planning evaluation.