WebGLM: Verso un Sistema Efficiente di Risposta alle Domande Potenziato dal Web con Preferenze Umane
WebGLM: Towards An Efficient Web-Enhanced Question Answering System with Human Preferences
June 13, 2023
Autori: Xiao Liu, Hanyu Lai, Hao Yu, Yifan Xu, Aohan Zeng, Zhengxiao Du, Peng Zhang, Yuxiao Dong, Jie Tang
cs.AI
Abstract
Presentiamo WebGLM, un sistema di risposta alle domande potenziato dal web basato sul General Language Model (GLM). Il suo obiettivo è arricchire un modello linguistico pre-addestrato di grandi dimensioni (LLM) con capacità di ricerca e recupero web, mantenendo al contempo l'efficienza per implementazioni nel mondo reale. Per raggiungere questo scopo, sviluppiamo WebGLM con strategie per il retriever potenziato da LLM, il generatore bootstrap e lo scorer consapevole delle preferenze umane. Nello specifico, identifichiamo e affrontiamo i limiti di WebGPT (OpenAI), attraverso i quali WebGLM è dotato di vantaggi in termini di accuratezza, efficienza e convenienza. Inoltre, proponiamo criteri sistematici per valutare i sistemi di risposta alle domande potenziati dal web. Condurre valutazioni umane multidimensionali e studi di ablazione quantitativi suggerisce che i design proposti di WebGLM superano i sistemi esistenti. WebGLM con il GLM da 10 miliardi di parametri (10B) dimostra prestazioni migliori rispetto a WebGPT di dimensioni simili (13B) e persino comparabili a WebGPT (175B) nella valutazione umana. Il codice, la demo e i dati sono disponibili su https://github.com/THUDM/WebGLM.
English
We present WebGLM, a web-enhanced question-answering system based on the
General Language Model (GLM). Its goal is to augment a pre-trained large
language model (LLM) with web search and retrieval capabilities while being
efficient for real-world deployments. To achieve this, we develop WebGLM with
strategies for the LLM-augmented retriever, bootstrapped generator, and human
preference-aware scorer. Specifically, we identify and address the limitations
of WebGPT (OpenAI), through which WebGLM is enabled with accuracy, efficiency,
and cost-effectiveness advantages. In addition, we propose systematic criteria
for evaluating web-enhanced QA systems. We conduct multi-dimensional human
evaluation and quantitative ablation studies, which suggest the outperformance
of the proposed WebGLM designs over existing systems. WebGLM with the
10-billion-parameter GLM (10B) is shown to perform better than the
similar-sized WebGPT (13B) and even comparably to WebGPT (175B) in human
evaluation. The code, demo, and data are at
https://github.com/THUDM/WebGLM.