계획, 장문맥 이해, 프로그램 합성을 갖춘 실세계 웹 에이전트
A Real-World WebAgent with Planning, Long Context Understanding, and Program Synthesis
July 24, 2023
저자: Izzeddin Gur, Hiroki Furuta, Austin Huang, Mustafa Safdari, Yutaka Matsuo, Douglas Eck, Aleksandra Faust
cs.AI
초록
사전 학습된 대규모 언어 모델(LLMs)은 최근 자율 웹 탐색에서 더 나은 일반화와 샘플 효율성을 달성했습니다. 그러나 실제 웹사이트에서의 성능은 여전히 (1) 개방 도메인 특성, (2) 제한된 컨텍스트 길이, (3) HTML에 대한 귀납적 편향 부족으로 인해 어려움을 겪고 있습니다. 우리는 자연어 지시에 따라 실제 웹사이트에서 작업을 완료할 수 있는 LLM 기반 에이전트인 WebAgent를 소개합니다. WebAgent는 지시를 표준 하위 지시로 분해하여 미리 계획을 세우고, 긴 HTML 문서를 작업 관련 요약본으로 요약하며, 이를 통해 생성된 Python 프로그램을 사용하여 웹사이트에서 행동합니다. 우리는 WebAgent를 Flan-U-PaLM을 사용하여 코드 생성을 기반으로 설계하고, 긴 HTML 문서를 위한 새로운 사전 학습된 LLM인 HTML-T5를 사용하여 로컬 및 글로벌 주의 메커니즘과 장거리 노이즈 제거 목표의 혼합을 통해 계획 및 요약을 수행합니다. 우리는 이 방법론이 실제 웹사이트에서의 성공률을 50% 이상 향상시키고, HTML-T5가 HTML 기반 작업을 해결하는 최고의 모델임을 실증적으로 입증했습니다. HTML-T5는 MiniWoB 웹 탐색 벤치마크에서 이전 최고 기술(SoTA)보다 14.9% 더 높은 성공률을 달성했으며, 오프라인 작업 계획 평가에서도 더 나은 정확도를 보였습니다.
English
Pre-trained large language models (LLMs) have recently achieved better
generalization and sample efficiency in autonomous web navigation. However, the
performance on real-world websites has still suffered from (1) open domainness,
(2) limited context length, and (3) lack of inductive bias on HTML. We
introduce WebAgent, an LLM-driven agent that can complete the tasks on real
websites following natural language instructions. WebAgent plans ahead by
decomposing instructions into canonical sub-instructions, summarizes long HTML
documents into task-relevant snippets, and acts on websites via generated
Python programs from those. We design WebAgent with Flan-U-PaLM, for grounded
code generation, and HTML-T5, new pre-trained LLMs for long HTML documents
using local and global attention mechanisms and a mixture of long-span
denoising objectives, for planning and summarization. We empirically
demonstrate that our recipe improves the success on a real website by over 50%,
and that HTML-T5 is the best model to solve HTML-based tasks; achieving 14.9%
higher success rate than prior SoTA on the MiniWoB web navigation benchmark and
better accuracy on offline task planning evaluation.