AutoWebGLM: Inicialização e Reforço de um Agente de Navegação na Web Baseado em Modelo de Linguagem de Grande Escala
AutoWebGLM: Bootstrap And Reinforce A Large Language Model-based Web Navigating Agent
April 4, 2024
Autores: Hanyu Lai, Xiao Liu, Iat Long Iong, Shuntian Yao, Yuxuan Chen, Pengbo Shen, Hao Yu, Hanchen Zhang, Xiaohan Zhang, Yuxiao Dong, Jie Tang
cs.AI
Resumo
Grandes modelos de linguagem (LLMs) têm impulsionado muitas tarefas de agentes inteligentes, como a navegação na web -- mas a maioria dos agentes existentes tem desempenho longe de ser satisfatório em páginas web do mundo real devido a três fatores: (1) a versatilidade de ações em páginas web, (2) textos HTML que excedem a capacidade de processamento do modelo, e (3) a complexidade da tomada de decisões devido à natureza de domínio aberto da web. Diante desse desafio, desenvolvemos o AutoWebGLM, um agente automatizado de navegação na web baseado no ChatGLM3-6B que supera o GPT-4. Inspirados pelos padrões de navegação humana, projetamos um algoritmo de simplificação de HTML para representar páginas web, preservando informações vitais de forma sucinta. Empregamos um método híbrido humano-IA para construir dados de navegação na web para treinamento curricular. Em seguida, iniciamos o modelo com aprendizado por reforço e amostragem por rejeição para facilitar ainda mais a compreensão de páginas web, operações de navegador e a decomposição eficiente de tarefas por si mesmo. Para testes, estabelecemos um benchmark bilíngue -- o AutoWebBench -- para tarefas de navegação na web do mundo real. Avaliamos o AutoWebGLM em diversos benchmarks de navegação na web, revelando suas melhorias, mas também os desafios subjacentes para lidar com ambientes reais. O código, modelo e dados relacionados serão liberados em https://github.com/THUDM/AutoWebGLM.
English
Large language models (LLMs) have fueled many intelligent agent tasks, such
as web navigation -- but most existing agents perform far from satisfying in
real-world webpages due to three factors: (1) the versatility of actions on
webpages, (2) HTML text exceeding model processing capacity, and (3) the
complexity of decision-making due to the open-domain nature of web. In light of
the challenge, we develop AutoWebGLM, a GPT-4-outperforming automated web
navigation agent built upon ChatGLM3-6B. Inspired by human browsing patterns,
we design an HTML simplification algorithm to represent webpages, preserving
vital information succinctly. We employ a hybrid human-AI method to build web
browsing data for curriculum training. Then, we bootstrap the model by
reinforcement learning and rejection sampling to further facilitate webpage
comprehension, browser operations, and efficient task decomposition by itself.
For testing, we establish a bilingual benchmark -- AutoWebBench -- for
real-world web browsing tasks. We evaluate AutoWebGLM across diverse web
navigation benchmarks, revealing its improvements but also underlying
challenges to tackle real environments. Related code, model, and data will be
released at https://github.com/THUDM/AutoWebGLM.