Веб-агент реального мира с планированием, пониманием длинного контекста и синтезом программ
A Real-World WebAgent with Planning, Long Context Understanding, and Program Synthesis
July 24, 2023
Авторы: Izzeddin Gur, Hiroki Furuta, Austin Huang, Mustafa Safdari, Yutaka Matsuo, Douglas Eck, Aleksandra Faust
cs.AI
Аннотация
Предварительно обученные большие языковые модели (LLM) недавно достигли лучшей обобщаемости и эффективности использования данных в автономной навигации в вебе. Однако производительность на реальных веб-сайтах всё ещё страдает от (1) открытой доменности, (2) ограниченной длины контекста и (3) отсутствия индуктивного смещения для HTML. Мы представляем WebAgent — агента на основе LLM, который может выполнять задачи на реальных веб-сайтах, следуя инструкциям на естественном языке. WebAgent планирует заранее, разбивая инструкции на канонические подзадачи, суммирует длинные HTML-документы в релевантные для задачи фрагменты и взаимодействует с веб-сайтами через сгенерированные на их основе программы на Python. Мы разработали WebAgent с использованием Flan-U-PaLM для генерации заземлённого кода и HTML-T5 — новых предварительно обученных LLM для работы с длинными HTML-документами, использующих локальные и глобальные механизмы внимания, а также смесь задач по восстановлению длинных последовательностей, для планирования и суммирования. Эмпирически мы демонстрируем, что наш подход повышает успешность выполнения задач на реальном веб-сайте более чем на 50%, а HTML-T5 является лучшей моделью для решения задач на основе HTML, достигая на 14,9% более высокой успешности, чем предыдущее состояние искусства на бенчмарке MiniWoB для веб-навигации, а также лучшей точности в офлайн-оценке планирования задач.
English
Pre-trained large language models (LLMs) have recently achieved better
generalization and sample efficiency in autonomous web navigation. However, the
performance on real-world websites has still suffered from (1) open domainness,
(2) limited context length, and (3) lack of inductive bias on HTML. We
introduce WebAgent, an LLM-driven agent that can complete the tasks on real
websites following natural language instructions. WebAgent plans ahead by
decomposing instructions into canonical sub-instructions, summarizes long HTML
documents into task-relevant snippets, and acts on websites via generated
Python programs from those. We design WebAgent with Flan-U-PaLM, for grounded
code generation, and HTML-T5, new pre-trained LLMs for long HTML documents
using local and global attention mechanisms and a mixture of long-span
denoising objectives, for planning and summarization. We empirically
demonstrate that our recipe improves the success on a real website by over 50%,
and that HTML-T5 is the best model to solve HTML-based tasks; achieving 14.9%
higher success rate than prior SoTA on the MiniWoB web navigation benchmark and
better accuracy on offline task planning evaluation.