WebGLM: Hacia un Sistema Eficiente de Respuesta a Preguntas Mejorado con la Web y Preferencias Humanas
WebGLM: Towards An Efficient Web-Enhanced Question Answering System with Human Preferences
June 13, 2023
Autores: Xiao Liu, Hanyu Lai, Hao Yu, Yifan Xu, Aohan Zeng, Zhengxiao Du, Peng Zhang, Yuxiao Dong, Jie Tang
cs.AI
Resumen
Presentamos WebGLM, un sistema de respuesta a preguntas mejorado para la web basado en el Modelo de Lenguaje General (GLM). Su objetivo es aumentar un modelo de lenguaje grande (LLM) preentrenado con capacidades de búsqueda y recuperación web, manteniendo la eficiencia para implementaciones en el mundo real. Para lograrlo, desarrollamos WebGLM con estrategias para el recuperador aumentado por LLM, el generador bootstrapped y el evaluador consciente de preferencias humanas. Específicamente, identificamos y abordamos las limitaciones de WebGPT (OpenAI), lo que permite a WebGLM ventajas en precisión, eficiencia y rentabilidad. Además, proponemos criterios sistemáticos para evaluar sistemas de respuesta a preguntas mejorados para la web. Realizamos evaluaciones humanas multidimensionales y estudios de ablación cuantitativos, que sugieren que los diseños propuestos de WebGLM superan a los sistemas existentes. WebGLM con el GLM de 10 mil millones de parámetros (10B) demuestra un mejor rendimiento que WebGPT de tamaño similar (13B) e incluso comparable a WebGPT (175B) en la evaluación humana. El código, la demostración y los datos están disponibles en https://github.com/THUDM/WebGLM.
English
We present WebGLM, a web-enhanced question-answering system based on the
General Language Model (GLM). Its goal is to augment a pre-trained large
language model (LLM) with web search and retrieval capabilities while being
efficient for real-world deployments. To achieve this, we develop WebGLM with
strategies for the LLM-augmented retriever, bootstrapped generator, and human
preference-aware scorer. Specifically, we identify and address the limitations
of WebGPT (OpenAI), through which WebGLM is enabled with accuracy, efficiency,
and cost-effectiveness advantages. In addition, we propose systematic criteria
for evaluating web-enhanced QA systems. We conduct multi-dimensional human
evaluation and quantitative ablation studies, which suggest the outperformance
of the proposed WebGLM designs over existing systems. WebGLM with the
10-billion-parameter GLM (10B) is shown to perform better than the
similar-sized WebGPT (13B) and even comparably to WebGPT (175B) in human
evaluation. The code, demo, and data are at
https://github.com/THUDM/WebGLM.