AutoWebGLM: Avvio e Rafforzamento di un Agente di Navigazione Web Basato su un Modello Linguistico di Grandi Dimensioni
AutoWebGLM: Bootstrap And Reinforce A Large Language Model-based Web Navigating Agent
April 4, 2024
Autori: Hanyu Lai, Xiao Liu, Iat Long Iong, Shuntian Yao, Yuxuan Chen, Pengbo Shen, Hao Yu, Hanchen Zhang, Xiaohan Zhang, Yuxiao Dong, Jie Tang
cs.AI
Abstract
I grandi modelli linguistici (LLM) hanno alimentato numerosi compiti di agenti intelligenti, come la navigazione web — ma la maggior parte degli agenti esistenti si comporta in modo insoddisfacente nelle pagine web reali a causa di tre fattori: (1) la versatilità delle azioni sulle pagine web, (2) il testo HTML che supera la capacità di elaborazione del modello, e (3) la complessità del processo decisionale dovuta alla natura open-domain del web. Di fronte a questa sfida, abbiamo sviluppato AutoWebGLM, un agente automatizzato di navigazione web basato su ChatGLM3-6B che supera GPT-4. Ispirati dai modelli di navigazione umana, abbiamo progettato un algoritmo di semplificazione HTML per rappresentare le pagine web, preservando le informazioni vitali in modo conciso. Utilizziamo un metodo ibrido uomo-AI per costruire dati di navigazione web per l'addestramento curriculare. Successivamente, potenziamo il modello attraverso l'apprendimento per rinforzo e il campionamento per rifiuto per facilitare ulteriormente la comprensione delle pagine web, le operazioni del browser e la scomposizione efficiente dei compiti in autonomia. Per i test, abbiamo stabilito un benchmark bilingue — AutoWebBench — per compiti di navigazione web nel mondo reale. Valutiamo AutoWebGLM su diversi benchmark di navigazione web, evidenziandone i miglioramenti ma anche le sfide sottostanti per affrontare ambienti reali. Codice, modello e dati correlati saranno rilasciati su https://github.com/THUDM/AutoWebGLM.
English
Large language models (LLMs) have fueled many intelligent agent tasks, such
as web navigation -- but most existing agents perform far from satisfying in
real-world webpages due to three factors: (1) the versatility of actions on
webpages, (2) HTML text exceeding model processing capacity, and (3) the
complexity of decision-making due to the open-domain nature of web. In light of
the challenge, we develop AutoWebGLM, a GPT-4-outperforming automated web
navigation agent built upon ChatGLM3-6B. Inspired by human browsing patterns,
we design an HTML simplification algorithm to represent webpages, preserving
vital information succinctly. We employ a hybrid human-AI method to build web
browsing data for curriculum training. Then, we bootstrap the model by
reinforcement learning and rejection sampling to further facilitate webpage
comprehension, browser operations, and efficient task decomposition by itself.
For testing, we establish a bilingual benchmark -- AutoWebBench -- for
real-world web browsing tasks. We evaluate AutoWebGLM across diverse web
navigation benchmarks, revealing its improvements but also underlying
challenges to tackle real environments. Related code, model, and data will be
released at https://github.com/THUDM/AutoWebGLM.