AutoWebGLM: Bootstrap и укрепление веб-навигационного агента на основе большой языковой модели
AutoWebGLM: Bootstrap And Reinforce A Large Language Model-based Web Navigating Agent
April 4, 2024
Авторы: Hanyu Lai, Xiao Liu, Iat Long Iong, Shuntian Yao, Yuxuan Chen, Pengbo Shen, Hao Yu, Hanchen Zhang, Xiaohan Zhang, Yuxiao Dong, Jie Tang
cs.AI
Аннотация
Большие языковые модели (LLM) стимулировали многие задачи интеллектуальных агентов, такие как навигация по веб-страницам, но большинство существующих агентов далеки от удовлетворительной производительности на реальных веб-страницах из-за трех факторов: (1) многообразие действий на веб-страницах, (2) объем HTML-текста, превышающий возможности обработки модели, и (3) сложность принятия решений из-за открытой природы веб-среды. С учетом этого вызова мы разрабатываем AutoWebGLM, автоматизированный агент для навигации по вебу, превосходящий GPT-4, построенный на основе ChatGLM3-6B. Вдохновленные образцами человеческого просмотра, мы разрабатываем алгоритм упрощения HTML для представления веб-страниц, кратко сохраняя важную информацию. Мы используем гибридный метод человека и искусственного интеллекта для создания данных о просмотре веб-страниц для курсы обучения. Затем мы инициируем модель обучением с подкреплением и отбором отказов, чтобы дополнительно облегчить понимание веб-страниц, операции браузера и эффективное разбиение задач самой собой. Для тестирования мы создаем двуязычный бенчмарк - AutoWebBench - для задач навигации по реальным веб-страницам. Мы оцениваем AutoWebGLM на различных бенчмарках навигации по вебу, выявляя его улучшения, но также подлежащие решению вызовы в реальных средах. Связанный код, модель и данные будут опубликованы на https://github.com/THUDM/AutoWebGLM.
English
Large language models (LLMs) have fueled many intelligent agent tasks, such
as web navigation -- but most existing agents perform far from satisfying in
real-world webpages due to three factors: (1) the versatility of actions on
webpages, (2) HTML text exceeding model processing capacity, and (3) the
complexity of decision-making due to the open-domain nature of web. In light of
the challenge, we develop AutoWebGLM, a GPT-4-outperforming automated web
navigation agent built upon ChatGLM3-6B. Inspired by human browsing patterns,
we design an HTML simplification algorithm to represent webpages, preserving
vital information succinctly. We employ a hybrid human-AI method to build web
browsing data for curriculum training. Then, we bootstrap the model by
reinforcement learning and rejection sampling to further facilitate webpage
comprehension, browser operations, and efficient task decomposition by itself.
For testing, we establish a bilingual benchmark -- AutoWebBench -- for
real-world web browsing tasks. We evaluate AutoWebGLM across diverse web
navigation benchmarks, revealing its improvements but also underlying
challenges to tackle real environments. Related code, model, and data will be
released at https://github.com/THUDM/AutoWebGLM.Summary
AI-Generated Summary