AutoWebGLM: Bootstrappen en Versterken van een op Grote Taalmodellen Gebaseerde Webnavigatieagent
AutoWebGLM: Bootstrap And Reinforce A Large Language Model-based Web Navigating Agent
April 4, 2024
Auteurs: Hanyu Lai, Xiao Liu, Iat Long Iong, Shuntian Yao, Yuxuan Chen, Pengbo Shen, Hao Yu, Hanchen Zhang, Xiaohan Zhang, Yuxiao Dong, Jie Tang
cs.AI
Samenvatting
Grote taalmodellen (LLMs) hebben veel intelligente agenttaken aangewakkerd, zoals webnavigatie – maar de meeste bestaande agents presteren verre van bevredigend op echte webpagina's vanwege drie factoren: (1) de veelzijdigheid van acties op webpagina's, (2) HTML-tekst die de verwerkingscapaciteit van het model overschrijdt, en (3) de complexiteit van besluitvorming door het open-domein karakter van het web. Gezien deze uitdaging ontwikkelen we AutoWebGLM, een geautomatiseerde webnavigatieagent gebouwd op ChatGLM3-6B die GPT-4 overtreft. Geïnspireerd door menselijke browsepatronen ontwerpen we een HTML-vereenvoudigingsalgoritme om webpagina's weer te geven, waarbij essentiële informatie beknopt behouden blijft. We gebruiken een hybride mens-AI-methode om webbrowsingdata op te bouwen voor curriculumtraining. Vervolgens bootstrappen we het model door reinforcement learning en rejection sampling om het begrip van webpagina's, browseroperaties en efficiënte taakdecompositie verder te bevorderen. Voor het testen stellen we een tweetalige benchmark op – AutoWebBench – voor real-world webbrowsingtaken. We evalueren AutoWebGLM over diverse webnavigatiebenchmarks, wat de verbeteringen maar ook de onderliggende uitdagingen blootlegt om echte omgevingen aan te pakken. Gerelateerde code, model en data zullen worden vrijgegeven op https://github.com/THUDM/AutoWebGLM.
English
Large language models (LLMs) have fueled many intelligent agent tasks, such
as web navigation -- but most existing agents perform far from satisfying in
real-world webpages due to three factors: (1) the versatility of actions on
webpages, (2) HTML text exceeding model processing capacity, and (3) the
complexity of decision-making due to the open-domain nature of web. In light of
the challenge, we develop AutoWebGLM, a GPT-4-outperforming automated web
navigation agent built upon ChatGLM3-6B. Inspired by human browsing patterns,
we design an HTML simplification algorithm to represent webpages, preserving
vital information succinctly. We employ a hybrid human-AI method to build web
browsing data for curriculum training. Then, we bootstrap the model by
reinforcement learning and rejection sampling to further facilitate webpage
comprehension, browser operations, and efficient task decomposition by itself.
For testing, we establish a bilingual benchmark -- AutoWebBench -- for
real-world web browsing tasks. We evaluate AutoWebGLM across diverse web
navigation benchmarks, revealing its improvements but also underlying
challenges to tackle real environments. Related code, model, and data will be
released at https://github.com/THUDM/AutoWebGLM.