WebGLM: Naar een Efficiënt Web-Gestuurd Vraag-Antwoordsysteem met Menselijke Voorkeuren

Samenvatting

We presenteren WebGLM, een web-verbeterd vraag-antwoordsysteem gebaseerd op het General Language Model (GLM). Het doel is om een vooraf getraind groot taalmodel (LLM) uit te breiden met webzoek- en ophaalmogelijkheden, terwijl het efficiënt blijft voor implementaties in de praktijk. Om dit te bereiken, ontwikkelen we WebGLM met strategieën voor de LLM-verbeterde retriever, de bootstrapped generator en de menselijke voorkeur-gevoelige scorer. Specifiek identificeren en adresseren we de beperkingen van WebGPT (OpenAI), waardoor WebGLM wordt uitgerust met voordelen op het gebied van nauwkeurigheid, efficiëntie en kosteneffectiviteit. Daarnaast stellen we systematische criteria voor om web-verbeterde QA-systemen te evalueren. We voeren multidimensionale menselijke evaluaties en kwantitatieve ablatiestudies uit, die suggereren dat de voorgestelde WebGLM-ontwerpen beter presteren dan bestaande systemen. WebGLM met het 10-miljard-parameter GLM (10B) presteert beter dan het vergelijkbaar grote WebGPT (13B) en zelfs vergelijkbaar met WebGPT (175B) in menselijke evaluaties. De code, demo en gegevens zijn te vinden op https://github.com/THUDM/WebGLM.

English

We present WebGLM, a web-enhanced question-answering system based on the General Language Model (GLM). Its goal is to augment a pre-trained large language model (LLM) with web search and retrieval capabilities while being efficient for real-world deployments. To achieve this, we develop WebGLM with strategies for the LLM-augmented retriever, bootstrapped generator, and human preference-aware scorer. Specifically, we identify and address the limitations of WebGPT (OpenAI), through which WebGLM is enabled with accuracy, efficiency, and cost-effectiveness advantages. In addition, we propose systematic criteria for evaluating web-enhanced QA systems. We conduct multi-dimensional human evaluation and quantitative ablation studies, which suggest the outperformance of the proposed WebGLM designs over existing systems. WebGLM with the 10-billion-parameter GLM (10B) is shown to perform better than the similar-sized WebGPT (13B) and even comparably to WebGPT (175B) in human evaluation. The code, demo, and data are at https://github.com/THUDM/WebGLM.

WebGLM: Naar een Efficiënt Web-Gestuurd Vraag-Antwoordsysteem met Menselijke Voorkeuren

WebGLM: Towards An Efficient Web-Enhanced Question Answering System with Human Preferences

Samenvatting

Support