大規模言語モデルにおける信頼できる情報源の整合性
Trusted Source Alignment in Large Language Models
November 12, 2023
著者: Vasilisa Bashlovkina, Zhaobin Kuang, Riley Matthews, Edward Clifford, Yennie Jun, William W. Cohen, Simon Baumgartner
cs.AI
要旨
大規模言語モデル(LLM)は、ウェブ規模のコーパスで訓練されており、その中には信頼性の異なる情報源から得られた矛盾する事実情報が必然的に含まれています。本論文では、信頼できる情報源整合性(Trusted Source Alignment, TSA)と呼ばれるLLMの特性を測定することを提案します。TSAとは、不確実性や論争が存在する状況において、信頼できる出版社が発信する内容にモデルが整合する傾向を指します。我々は、ファクトチェック記事のコーパスに基づいたTSA評価データセットであるFactCheckQAを提示します。また、TSAを評価するための簡潔なプロトコルを説明し、応答抽出、主張の文脈化、プロンプト作成におけるバイアスなどの設計上の考慮事項を詳細に分析します。このプロトコルをPaLM-2に適用した結果、モデルサイズを拡大するにつれて、FactCheckQAにおけるモデルの性能がほぼランダムな状態から、信頼できる情報源との整合性において最大80%のバランス精度に向上することが明らかになりました。
English
Large language models (LLMs) are trained on web-scale corpora that inevitably
include contradictory factual information from sources of varying reliability.
In this paper, we propose measuring an LLM property called trusted source
alignment (TSA): the model's propensity to align with content produced by
trusted publishers in the face of uncertainty or controversy. We present
FactCheckQA, a TSA evaluation dataset based on a corpus of fact checking
articles. We describe a simple protocol for evaluating TSA and offer a detailed
analysis of design considerations including response extraction, claim
contextualization, and bias in prompt formulation. Applying the protocol to
PaLM-2, we find that as we scale up the model size, the model performance on
FactCheckQA improves from near-random to up to 80% balanced accuracy in
aligning with trusted sources.