WebGLM: Verso un Sistema Efficiente di Risposta alle Domande Potenziato dal Web con Preferenze Umane

Abstract

Presentiamo WebGLM, un sistema di risposta alle domande potenziato dal web basato sul General Language Model (GLM). Il suo obiettivo è arricchire un modello linguistico pre-addestrato di grandi dimensioni (LLM) con capacità di ricerca e recupero web, mantenendo al contempo l'efficienza per implementazioni nel mondo reale. Per raggiungere questo scopo, sviluppiamo WebGLM con strategie per il retriever potenziato da LLM, il generatore bootstrap e lo scorer consapevole delle preferenze umane. Nello specifico, identifichiamo e affrontiamo i limiti di WebGPT (OpenAI), attraverso i quali WebGLM è dotato di vantaggi in termini di accuratezza, efficienza e convenienza. Inoltre, proponiamo criteri sistematici per valutare i sistemi di risposta alle domande potenziati dal web. Condurre valutazioni umane multidimensionali e studi di ablazione quantitativi suggerisce che i design proposti di WebGLM superano i sistemi esistenti. WebGLM con il GLM da 10 miliardi di parametri (10B) dimostra prestazioni migliori rispetto a WebGPT di dimensioni simili (13B) e persino comparabili a WebGPT (175B) nella valutazione umana. Il codice, la demo e i dati sono disponibili su https://github.com/THUDM/WebGLM.

English

We present WebGLM, a web-enhanced question-answering system based on the General Language Model (GLM). Its goal is to augment a pre-trained large language model (LLM) with web search and retrieval capabilities while being efficient for real-world deployments. To achieve this, we develop WebGLM with strategies for the LLM-augmented retriever, bootstrapped generator, and human preference-aware scorer. Specifically, we identify and address the limitations of WebGPT (OpenAI), through which WebGLM is enabled with accuracy, efficiency, and cost-effectiveness advantages. In addition, we propose systematic criteria for evaluating web-enhanced QA systems. We conduct multi-dimensional human evaluation and quantitative ablation studies, which suggest the outperformance of the proposed WebGLM designs over existing systems. WebGLM with the 10-billion-parameter GLM (10B) is shown to perform better than the similar-sized WebGPT (13B) and even comparably to WebGPT (175B) in human evaluation. The code, demo, and data are at https://github.com/THUDM/WebGLM.

WebGLM: Verso un Sistema Efficiente di Risposta alle Domande Potenziato dal Web con Preferenze Umane

WebGLM: Towards An Efficient Web-Enhanced Question Answering System with Human Preferences

Abstract

Support