WebGLM: Naar een Efficiënt Web-Gestuurd Vraag-Antwoordsysteem met Menselijke Voorkeuren
WebGLM: Towards An Efficient Web-Enhanced Question Answering System with Human Preferences
June 13, 2023
Auteurs: Xiao Liu, Hanyu Lai, Hao Yu, Yifan Xu, Aohan Zeng, Zhengxiao Du, Peng Zhang, Yuxiao Dong, Jie Tang
cs.AI
Samenvatting
We presenteren WebGLM, een web-verbeterd vraag-antwoordsysteem gebaseerd op het General Language Model (GLM). Het doel is om een vooraf getraind groot taalmodel (LLM) uit te breiden met webzoek- en ophaalmogelijkheden, terwijl het efficiënt blijft voor implementaties in de praktijk. Om dit te bereiken, ontwikkelen we WebGLM met strategieën voor de LLM-verbeterde retriever, de bootstrapped generator en de menselijke voorkeur-gevoelige scorer. Specifiek identificeren en adresseren we de beperkingen van WebGPT (OpenAI), waardoor WebGLM wordt uitgerust met voordelen op het gebied van nauwkeurigheid, efficiëntie en kosteneffectiviteit. Daarnaast stellen we systematische criteria voor om web-verbeterde QA-systemen te evalueren. We voeren multidimensionale menselijke evaluaties en kwantitatieve ablatiestudies uit, die suggereren dat de voorgestelde WebGLM-ontwerpen beter presteren dan bestaande systemen. WebGLM met het 10-miljard-parameter GLM (10B) presteert beter dan het vergelijkbaar grote WebGPT (13B) en zelfs vergelijkbaar met WebGPT (175B) in menselijke evaluaties. De code, demo en gegevens zijn te vinden op https://github.com/THUDM/WebGLM.
English
We present WebGLM, a web-enhanced question-answering system based on the
General Language Model (GLM). Its goal is to augment a pre-trained large
language model (LLM) with web search and retrieval capabilities while being
efficient for real-world deployments. To achieve this, we develop WebGLM with
strategies for the LLM-augmented retriever, bootstrapped generator, and human
preference-aware scorer. Specifically, we identify and address the limitations
of WebGPT (OpenAI), through which WebGLM is enabled with accuracy, efficiency,
and cost-effectiveness advantages. In addition, we propose systematic criteria
for evaluating web-enhanced QA systems. We conduct multi-dimensional human
evaluation and quantitative ablation studies, which suggest the outperformance
of the proposed WebGLM designs over existing systems. WebGLM with the
10-billion-parameter GLM (10B) is shown to perform better than the
similar-sized WebGPT (13B) and even comparably to WebGPT (175B) in human
evaluation. The code, demo, and data are at
https://github.com/THUDM/WebGLM.