Un WebAgent en contexte réel intégrant la planification, la compréhension de contextes longs et la synthèse de programmes
A Real-World WebAgent with Planning, Long Context Understanding, and Program Synthesis
July 24, 2023
Auteurs: Izzeddin Gur, Hiroki Furuta, Austin Huang, Mustafa Safdari, Yutaka Matsuo, Douglas Eck, Aleksandra Faust
cs.AI
Résumé
Les grands modèles de langage pré-entraînés (LLMs) ont récemment démontré une meilleure généralisation et efficacité d'échantillonnage dans la navigation web autonome. Cependant, les performances sur les sites web réels restent limitées par (1) l'ouverture du domaine, (2) la longueur de contexte restreinte, et (3) le manque de biais inductif sur le HTML. Nous présentons WebAgent, un agent piloté par un LLM capable d'accomplir des tâches sur des sites web réels en suivant des instructions en langage naturel. WebAgent planifie en décomposant les instructions en sous-instructions canoniques, résume les longs documents HTML en extraits pertinents pour la tâche, et interagit avec les sites web via des programmes Python générés à partir de ceux-ci. Nous concevons WebAgent avec Flan-U-PaLM pour la génération de code ancré, et HTML-T5, de nouveaux LLMs pré-entraînés pour les longs documents HTML utilisant des mécanismes d'attention locale et globale ainsi qu'un mélange d'objectifs de débruitage à long terme, pour la planification et la synthèse. Nous démontrons empiriquement que notre approche améliore le taux de réussite sur un site web réel de plus de 50%, et que HTML-T5 est le meilleur modèle pour résoudre les tâches basées sur le HTML ; atteignant un taux de réussite 14,9% supérieur au précédent état de l'art sur le benchmark de navigation web MiniWoB et une meilleure précision dans l'évaluation hors ligne de la planification des tâches.
English
Pre-trained large language models (LLMs) have recently achieved better
generalization and sample efficiency in autonomous web navigation. However, the
performance on real-world websites has still suffered from (1) open domainness,
(2) limited context length, and (3) lack of inductive bias on HTML. We
introduce WebAgent, an LLM-driven agent that can complete the tasks on real
websites following natural language instructions. WebAgent plans ahead by
decomposing instructions into canonical sub-instructions, summarizes long HTML
documents into task-relevant snippets, and acts on websites via generated
Python programs from those. We design WebAgent with Flan-U-PaLM, for grounded
code generation, and HTML-T5, new pre-trained LLMs for long HTML documents
using local and global attention mechanisms and a mixture of long-span
denoising objectives, for planning and summarization. We empirically
demonstrate that our recipe improves the success on a real website by over 50%,
and that HTML-T5 is the best model to solve HTML-based tasks; achieving 14.9%
higher success rate than prior SoTA on the MiniWoB web navigation benchmark and
better accuracy on offline task planning evaluation.