AutoWebGLM: Inicialización y Refuerzo de un Agente de Navegación Web Basado en un Modelo de Lenguaje de Gran Escala
AutoWebGLM: Bootstrap And Reinforce A Large Language Model-based Web Navigating Agent
April 4, 2024
Autores: Hanyu Lai, Xiao Liu, Iat Long Iong, Shuntian Yao, Yuxuan Chen, Pengbo Shen, Hao Yu, Hanchen Zhang, Xiaohan Zhang, Yuxiao Dong, Jie Tang
cs.AI
Resumen
Los modelos de lenguaje de gran escala (LLMs, por sus siglas en inglés) han impulsado numerosas tareas de agentes inteligentes, como la navegación web. Sin embargo, la mayoría de los agentes existentes tienen un desempeño insatisfactorio en páginas web del mundo real debido a tres factores: (1) la versatilidad de las acciones en las páginas web, (2) el texto HTML que excede la capacidad de procesamiento del modelo, y (3) la complejidad en la toma de decisiones debido a la naturaleza de dominio abierto de la web. Ante este desafío, desarrollamos AutoWebGLM, un agente automatizado de navegación web basado en ChatGLM3-6B que supera a GPT-4. Inspirados en los patrones de navegación humana, diseñamos un algoritmo de simplificación de HTML para representar las páginas web, conservando la información vital de manera sucinta. Empleamos un método híbrido humano-IA para construir datos de navegación web destinados al entrenamiento curricular. Luego, potenciamos el modelo mediante aprendizaje por refuerzo y muestreo por rechazo para mejorar la comprensión de las páginas web, las operaciones del navegador y la descomposición eficiente de tareas por sí mismo. Para las pruebas, establecemos un benchmark bilingüe —AutoWebBench— para tareas de navegación web en entornos reales. Evaluamos AutoWebGLM en diversos benchmarks de navegación web, revelando sus mejoras pero también los desafíos subyacentes para abordar entornos reales. El código, el modelo y los datos relacionados se publicarán en https://github.com/THUDM/AutoWebGLM.
English
Large language models (LLMs) have fueled many intelligent agent tasks, such
as web navigation -- but most existing agents perform far from satisfying in
real-world webpages due to three factors: (1) the versatility of actions on
webpages, (2) HTML text exceeding model processing capacity, and (3) the
complexity of decision-making due to the open-domain nature of web. In light of
the challenge, we develop AutoWebGLM, a GPT-4-outperforming automated web
navigation agent built upon ChatGLM3-6B. Inspired by human browsing patterns,
we design an HTML simplification algorithm to represent webpages, preserving
vital information succinctly. We employ a hybrid human-AI method to build web
browsing data for curriculum training. Then, we bootstrap the model by
reinforcement learning and rejection sampling to further facilitate webpage
comprehension, browser operations, and efficient task decomposition by itself.
For testing, we establish a bilingual benchmark -- AutoWebBench -- for
real-world web browsing tasks. We evaluate AutoWebGLM across diverse web
navigation benchmarks, revealing its improvements but also underlying
challenges to tackle real environments. Related code, model, and data will be
released at https://github.com/THUDM/AutoWebGLM.Summary
AI-Generated Summary