Un Agente Web del Mundo Real con Planificación, Comprensión de Contexto Extendido y Síntesis de Programas
A Real-World WebAgent with Planning, Long Context Understanding, and Program Synthesis
July 24, 2023
Autores: Izzeddin Gur, Hiroki Furuta, Austin Huang, Mustafa Safdari, Yutaka Matsuo, Douglas Eck, Aleksandra Faust
cs.AI
Resumen
Los modelos de lenguaje preentrenados a gran escala (LLMs, por sus siglas en inglés) han logrado recientemente una mejor generalización y eficiencia en muestras para la navegación web autónoma. Sin embargo, el rendimiento en sitios web del mundo real aún se ha visto afectado por (1) la apertura del dominio, (2) la longitud limitada del contexto y (3) la falta de sesgo inductivo en HTML. Presentamos WebAgent, un agente impulsado por LLM que puede completar tareas en sitios web reales siguiendo instrucciones en lenguaje natural. WebAgent planifica descomponiendo las instrucciones en subinstrucciones canónicas, resume documentos HTML largos en fragmentos relevantes para la tarea y actúa en los sitios web mediante programas Python generados a partir de estos. Diseñamos WebAgent con Flan-U-PaLM, para la generación de código fundamentado, y HTML-T5, nuevos LLMs preentrenados para documentos HTML largos que utilizan mecanismos de atención local y global y una mezcla de objetivos de desenmascaramiento de larga duración, para planificación y resumen. Demostramos empíricamente que nuestra receta mejora el éxito en un sitio web real en más del 50%, y que HTML-T5 es el mejor modelo para resolver tareas basadas en HTML; logrando una tasa de éxito un 14.9% mayor que el estado del arte anterior en el benchmark de navegación web MiniWoB y una mejor precisión en la evaluación de planificación de tareas fuera de línea.
English
Pre-trained large language models (LLMs) have recently achieved better
generalization and sample efficiency in autonomous web navigation. However, the
performance on real-world websites has still suffered from (1) open domainness,
(2) limited context length, and (3) lack of inductive bias on HTML. We
introduce WebAgent, an LLM-driven agent that can complete the tasks on real
websites following natural language instructions. WebAgent plans ahead by
decomposing instructions into canonical sub-instructions, summarizes long HTML
documents into task-relevant snippets, and acts on websites via generated
Python programs from those. We design WebAgent with Flan-U-PaLM, for grounded
code generation, and HTML-T5, new pre-trained LLMs for long HTML documents
using local and global attention mechanisms and a mixture of long-span
denoising objectives, for planning and summarization. We empirically
demonstrate that our recipe improves the success on a real website by over 50%,
and that HTML-T5 is the best model to solve HTML-based tasks; achieving 14.9%
higher success rate than prior SoTA on the MiniWoB web navigation benchmark and
better accuracy on offline task planning evaluation.