WebGLM: Auf dem Weg zu einem effizienten, webbasierten Frage-Antwort-System mit menschlichen Präferenzen

papers.abstract

Wir präsentieren WebGLM, ein webbasiertes Frage-Antwort-System, das auf dem General Language Model (GLM) basiert. Ziel ist es, ein vortrainiertes großes Sprachmodell (LLM) mit Web-Such- und Retrieval-Fähigkeiten zu erweitern, während es effizient für den Einsatz in der Praxis bleibt. Um dies zu erreichen, entwickeln wir WebGLM mit Strategien für den LLM-erweiterten Retriever, den bootstrapped Generator und einen menschlichen Präferenz-berücksichtigenden Scorer. Insbesondere identifizieren und adressieren wir die Einschränkungen von WebGPT (OpenAI), wodurch WebGLM mit Vorteilen in Bezug auf Genauigkeit, Effizienz und Kosteneffektivität ausgestattet wird. Zusätzlich schlagen wir systematische Kriterien für die Bewertung von webbasierten Frage-Antwort-Systemen vor. Wir führen mehrdimensionale menschliche Bewertungen und quantitative Ablationsstudien durch, die die Überlegenheit der vorgeschlagenen WebGLM-Designs gegenüber bestehenden Systemen nahelegen. WebGLM mit dem 10-Milliarden-Parameter-GLM (10B) zeigt in der menschlichen Bewertung eine bessere Leistung als das ähnlich große WebGPT (13B) und ist sogar vergleichbar mit WebGPT (175B). Der Code, die Demo und die Daten sind unter https://github.com/THUDM/WebGLM verfügbar.

English

We present WebGLM, a web-enhanced question-answering system based on the General Language Model (GLM). Its goal is to augment a pre-trained large language model (LLM) with web search and retrieval capabilities while being efficient for real-world deployments. To achieve this, we develop WebGLM with strategies for the LLM-augmented retriever, bootstrapped generator, and human preference-aware scorer. Specifically, we identify and address the limitations of WebGPT (OpenAI), through which WebGLM is enabled with accuracy, efficiency, and cost-effectiveness advantages. In addition, we propose systematic criteria for evaluating web-enhanced QA systems. We conduct multi-dimensional human evaluation and quantitative ablation studies, which suggest the outperformance of the proposed WebGLM designs over existing systems. WebGLM with the 10-billion-parameter GLM (10B) is shown to perform better than the similar-sized WebGPT (13B) and even comparably to WebGPT (175B) in human evaluation. The code, demo, and data are at https://github.com/THUDM/WebGLM.

WebGLM: Auf dem Weg zu einem effizienten, webbasierten Frage-Antwort-System mit menschlichen Präferenzen

WebGLM: Towards An Efficient Web-Enhanced Question Answering System with Human Preferences

papers.abstract

Support