Ein WebAgent für die reale Welt mit Planung, Verständnis langer Kontexte und Programmsynthese
A Real-World WebAgent with Planning, Long Context Understanding, and Program Synthesis
July 24, 2023
Autoren: Izzeddin Gur, Hiroki Furuta, Austin Huang, Mustafa Safdari, Yutaka Matsuo, Douglas Eck, Aleksandra Faust
cs.AI
Zusammenfassung
Vortrainierte große Sprachmodelle (LLMs) haben in letzter Zeit eine bessere Generalisierung und Stichprobeneffizienz bei der autonomen Webnavigation erreicht. Die Leistung auf realen Websites leidet jedoch weiterhin unter (1) offener Domänenvielfalt, (2) begrenzter Kontextlänge und (3) fehlendem induktivem Bias für HTML. Wir stellen WebAgent vor, einen LLM-gesteuerten Agenten, der Aufgaben auf realen Websites basierend auf natürlichen Sprachanweisungen ausführen kann. WebAgent plant voraus, indem er Anweisungen in kanonische Teilanweisungen zerlegt, lange HTML-Dokumente in aufgabenrelevante Ausschnitte zusammenfasst und über generierte Python-Programme auf Websites agiert. Wir haben WebAgent mit Flan-U-PaLM für die fundierte Code-Generierung und HTML-T5, neuen vortrainierten LLMs für lange HTML-Dokumente, die lokale und globale Aufmerksamkeitsmechanismen sowie eine Mischung aus langstreckigen Denoising-Zielen verwenden, für Planung und Zusammenfassung entwickelt. Wir zeigen empirisch, dass unser Ansatz die Erfolgsquote auf einer realen Website um über 50 % verbessert und dass HTML-T5 das beste Modell zur Lösung HTML-basierter Aufgaben ist; es erreicht eine 14,9 % höhere Erfolgsrate als der bisherige State-of-the-Art auf dem MiniWoB-Webnavigations-Benchmark und eine bessere Genauigkeit bei der Offline-Aufgabenplanungsbewertung.
English
Pre-trained large language models (LLMs) have recently achieved better
generalization and sample efficiency in autonomous web navigation. However, the
performance on real-world websites has still suffered from (1) open domainness,
(2) limited context length, and (3) lack of inductive bias on HTML. We
introduce WebAgent, an LLM-driven agent that can complete the tasks on real
websites following natural language instructions. WebAgent plans ahead by
decomposing instructions into canonical sub-instructions, summarizes long HTML
documents into task-relevant snippets, and acts on websites via generated
Python programs from those. We design WebAgent with Flan-U-PaLM, for grounded
code generation, and HTML-T5, new pre-trained LLMs for long HTML documents
using local and global attention mechanisms and a mixture of long-span
denoising objectives, for planning and summarization. We empirically
demonstrate that our recipe improves the success on a real website by over 50%,
and that HTML-T5 is the best model to solve HTML-based tasks; achieving 14.9%
higher success rate than prior SoTA on the MiniWoB web navigation benchmark and
better accuracy on offline task planning evaluation.