WebGLM: К созданию эффективной системы вопросно-ответных взаимодействий с веб-усилением, учитывающей предпочтения пользователей
WebGLM: Towards An Efficient Web-Enhanced Question Answering System with Human Preferences
June 13, 2023
Авторы: Xiao Liu, Hanyu Lai, Hao Yu, Yifan Xu, Aohan Zeng, Zhengxiao Du, Peng Zhang, Yuxiao Dong, Jie Tang
cs.AI
Аннотация
Мы представляем WebGLM — веб-усиленную систему ответов на вопросы, основанную на Общей Языковой Модели (GLM). Её цель — расширить возможности предварительно обученной крупной языковой модели (LLM) за счёт интеграции веб-поиска и извлечения данных, сохраняя при этом эффективность для реального применения. Для достижения этой цели мы разработали WebGLM, используя стратегии для LLM-усиленного извлекателя, бутстраппированного генератора и оценщика, учитывающего человеческие предпочтения. В частности, мы выявляем и устраняем ограничения WebGPT (OpenAI), что позволяет WebGLM превосходить её по точности, эффективности и экономичности. Кроме того, мы предлагаем систематические критерии для оценки веб-усиленных систем ответов на вопросы. Мы проводим многомерную человеческую оценку и количественные исследования с удалением компонентов, которые демонстрируют превосходство предложенных решений WebGLM над существующими системами. WebGLM с 10-миллиардной GLM (10B) показывает лучшие результаты, чем WebGPT аналогичного размера (13B), и даже сопоставима с WebGPT (175B) в человеческой оценке. Код, демонстрация и данные доступны по адресу https://github.com/THUDM/WebGLM.
English
We present WebGLM, a web-enhanced question-answering system based on the
General Language Model (GLM). Its goal is to augment a pre-trained large
language model (LLM) with web search and retrieval capabilities while being
efficient for real-world deployments. To achieve this, we develop WebGLM with
strategies for the LLM-augmented retriever, bootstrapped generator, and human
preference-aware scorer. Specifically, we identify and address the limitations
of WebGPT (OpenAI), through which WebGLM is enabled with accuracy, efficiency,
and cost-effectiveness advantages. In addition, we propose systematic criteria
for evaluating web-enhanced QA systems. We conduct multi-dimensional human
evaluation and quantitative ablation studies, which suggest the outperformance
of the proposed WebGLM designs over existing systems. WebGLM with the
10-billion-parameter GLM (10B) is shown to perform better than the
similar-sized WebGPT (13B) and even comparably to WebGPT (175B) in human
evaluation. The code, demo, and data are at
https://github.com/THUDM/WebGLM.