AutoWebGLM: Bootstrap und Verstärkung eines webbasierten Navigationsagenten auf Basis eines großen Sprachmodells
AutoWebGLM: Bootstrap And Reinforce A Large Language Model-based Web Navigating Agent
April 4, 2024
Autoren: Hanyu Lai, Xiao Liu, Iat Long Iong, Shuntian Yao, Yuxuan Chen, Pengbo Shen, Hao Yu, Hanchen Zhang, Xiaohan Zhang, Yuxiao Dong, Jie Tang
cs.AI
Zusammenfassung
Große Sprachmodelle (LLMs) haben viele intelligente Agentenaufgaben angetrieben, wie z. B. die Webnavigation - jedoch erfüllen die meisten bestehenden Agenten auf realen Webseiten bei weitem nicht die Anforderungen, aufgrund von drei Faktoren: (1) die Vielseitigkeit von Aktionen auf Webseiten, (2) HTML-Text, der die Verarbeitungskapazität des Modells übersteigt, und (3) die Komplexität der Entscheidungsfindung aufgrund der offenen Natur des Webs. Angesichts dieser Herausforderung entwickeln wir AutoWebGLM, einen automatisierten Webnavigationsagenten, der auf ChatGLM3-6B aufbaut und GPT-4 übertrifft. Inspiriert von menschlichen Browsermustern entwerfen wir einen HTML-Vereinfachungsalgorithmus, um Webseiten darzustellen und wichtige Informationen prägnant zu erhalten. Wir verwenden eine hybride menschlich-künstliche Intelligenz Methode, um Web-Browsing-Daten für das Lehrplantraining zu erstellen. Anschließend bootstrappen wir das Modell durch Verstärkungslernen und Ablehnungsabtastung, um die Webseite-Verständlichkeit, Browseroperationen und effiziente Aufgabenzerlegung weiter zu fördern. Für Tests richten wir einen zweisprachigen Benchmark ein - AutoWebBench - für reale Web-Browsing-Aufgaben. Wir evaluieren AutoWebGLM anhand verschiedener Webnavigations-Benchmarks, die Verbesserungen aufzeigen, aber auch zugrunde liegende Herausforderungen bei der Bewältigung realer Umgebungen. Der zugehörige Code, das Modell und die Daten werden unter https://github.com/THUDM/AutoWebGLM veröffentlicht.
English
Large language models (LLMs) have fueled many intelligent agent tasks, such
as web navigation -- but most existing agents perform far from satisfying in
real-world webpages due to three factors: (1) the versatility of actions on
webpages, (2) HTML text exceeding model processing capacity, and (3) the
complexity of decision-making due to the open-domain nature of web. In light of
the challenge, we develop AutoWebGLM, a GPT-4-outperforming automated web
navigation agent built upon ChatGLM3-6B. Inspired by human browsing patterns,
we design an HTML simplification algorithm to represent webpages, preserving
vital information succinctly. We employ a hybrid human-AI method to build web
browsing data for curriculum training. Then, we bootstrap the model by
reinforcement learning and rejection sampling to further facilitate webpage
comprehension, browser operations, and efficient task decomposition by itself.
For testing, we establish a bilingual benchmark -- AutoWebBench -- for
real-world web browsing tasks. We evaluate AutoWebGLM across diverse web
navigation benchmarks, revealing its improvements but also underlying
challenges to tackle real environments. Related code, model, and data will be
released at https://github.com/THUDM/AutoWebGLM.Summary
AI-Generated Summary