AutoWebGLM : Amorçage et renforcement d'un agent de navigation web basé sur un grand modèle de langage
AutoWebGLM: Bootstrap And Reinforce A Large Language Model-based Web Navigating Agent
April 4, 2024
Auteurs: Hanyu Lai, Xiao Liu, Iat Long Iong, Shuntian Yao, Yuxuan Chen, Pengbo Shen, Hao Yu, Hanchen Zhang, Xiaohan Zhang, Yuxiao Dong, Jie Tang
cs.AI
Résumé
Les grands modèles de langage (LLMs) ont alimenté de nombreuses tâches d'agents intelligents, telles que la navigation sur le web. Cependant, la plupart des agents existants sont loin d'être satisfaisants sur les pages web réelles en raison de trois facteurs : (1) la polyvalence des actions sur les pages web, (2) le texte HTML dépassant la capacité de traitement des modèles, et (3) la complexité de la prise de décision due à la nature ouverte du web. Face à ce défi, nous avons développé AutoWebGLM, un agent automatisé de navigation web surpassant GPT-4, basé sur ChatGLM3-6B. Inspirés par les habitudes de navigation humaine, nous avons conçu un algorithme de simplification HTML pour représenter les pages web, en conservant les informations essentielles de manière concise. Nous utilisons une méthode hybride humain-IA pour construire des données de navigation web destinées à un entraînement progressif. Ensuite, nous améliorons le modèle par apprentissage par renforcement et échantillonnage par rejet pour faciliter la compréhension des pages web, les opérations de navigation et la décomposition efficace des tâches par lui-même. Pour les tests, nous avons établi un benchmark bilingue -- AutoWebBench -- pour les tâches de navigation web réelles. Nous évaluons AutoWebGLM sur divers benchmarks de navigation web, révélant ses améliorations mais aussi les défis sous-jacents à relever pour s'adapter aux environnements réels. Le code, le modèle et les données associés seront publiés sur https://github.com/THUDM/AutoWebGLM.
English
Large language models (LLMs) have fueled many intelligent agent tasks, such
as web navigation -- but most existing agents perform far from satisfying in
real-world webpages due to three factors: (1) the versatility of actions on
webpages, (2) HTML text exceeding model processing capacity, and (3) the
complexity of decision-making due to the open-domain nature of web. In light of
the challenge, we develop AutoWebGLM, a GPT-4-outperforming automated web
navigation agent built upon ChatGLM3-6B. Inspired by human browsing patterns,
we design an HTML simplification algorithm to represent webpages, preserving
vital information succinctly. We employ a hybrid human-AI method to build web
browsing data for curriculum training. Then, we bootstrap the model by
reinforcement learning and rejection sampling to further facilitate webpage
comprehension, browser operations, and efficient task decomposition by itself.
For testing, we establish a bilingual benchmark -- AutoWebBench -- for
real-world web browsing tasks. We evaluate AutoWebGLM across diverse web
navigation benchmarks, revealing its improvements but also underlying
challenges to tackle real environments. Related code, model, and data will be
released at https://github.com/THUDM/AutoWebGLM.Summary
AI-Generated Summary