ChatPaper.aiChatPaper

AutoWebGLM: 대규모 언어 모델 기반 웹 탐색 에이전트의 부트스트랩 및 강화

AutoWebGLM: Bootstrap And Reinforce A Large Language Model-based Web Navigating Agent

April 4, 2024
저자: Hanyu Lai, Xiao Liu, Iat Long Iong, Shuntian Yao, Yuxuan Chen, Pengbo Shen, Hao Yu, Hanchen Zhang, Xiaohan Zhang, Yuxiao Dong, Jie Tang
cs.AI

초록

대형 언어 모델(LLMs)은 웹 탐색을 비롯한 다양한 지능형 에이전트 작업에 큰 기여를 해왔습니다. 그러나 대부분의 기존 에이전트들은 실제 웹페이지에서 만족스러운 성능을 보이지 못하는데, 이는 주로 세 가지 요인 때문입니다: (1) 웹페이지에서 수행 가능한 다양한 동작, (2) 모델 처리 능력을 초과하는 HTML 텍스트, (3) 웹의 개방형 특성으로 인한 의사결정의 복잡성. 이러한 도전 과제를 해결하기 위해, 우리는 ChatGLM3-6B를 기반으로 GPT-4를 능가하는 자동화된 웹 탐색 에이전트인 AutoWebGLM을 개발했습니다. 인간의 브라우징 패턴에서 영감을 받아, 우리는 웹페이지를 간결하게 표현하면서도 중요한 정보를 보존하는 HTML 단순화 알고리즘을 설계했습니다. 또한, 커리큘럼 학습을 위한 웹 브라우징 데이터를 구축하기 위해 인간과 AI의 하이브리드 방식을 채택했습니다. 그런 다음, 강화 학습과 거부 샘플링을 통해 모델을 부트스트랩하여 웹페이지 이해, 브라우저 조작, 그리고 효율적인 작업 분해 능력을 더욱 향상시켰습니다. 테스트를 위해, 우리는 실제 웹 브라우징 작업을 위한 이중 언어 벤치마크인 AutoWebBench를 구축했습니다. AutoWebGLM을 다양한 웹 탐색 벤치마크에서 평가한 결과, 개선된 성능을 확인할 수 있었지만, 실제 환경을 다루기 위한 근본적인 과제들도 드러났습니다. 관련 코드, 모델, 데이터는 https://github.com/THUDM/AutoWebGLM에서 공개될 예정입니다.
English
Large language models (LLMs) have fueled many intelligent agent tasks, such as web navigation -- but most existing agents perform far from satisfying in real-world webpages due to three factors: (1) the versatility of actions on webpages, (2) HTML text exceeding model processing capacity, and (3) the complexity of decision-making due to the open-domain nature of web. In light of the challenge, we develop AutoWebGLM, a GPT-4-outperforming automated web navigation agent built upon ChatGLM3-6B. Inspired by human browsing patterns, we design an HTML simplification algorithm to represent webpages, preserving vital information succinctly. We employ a hybrid human-AI method to build web browsing data for curriculum training. Then, we bootstrap the model by reinforcement learning and rejection sampling to further facilitate webpage comprehension, browser operations, and efficient task decomposition by itself. For testing, we establish a bilingual benchmark -- AutoWebBench -- for real-world web browsing tasks. We evaluate AutoWebGLM across diverse web navigation benchmarks, revealing its improvements but also underlying challenges to tackle real environments. Related code, model, and data will be released at https://github.com/THUDM/AutoWebGLM.

Summary

AI-Generated Summary

PDF293December 15, 2024