ConflictBank:知識の衝突の影響を評価するためのベンチマークLLM
ConflictBank: A Benchmark for Evaluating the Influence of Knowledge Conflicts in LLM
August 22, 2024
著者: Zhaochen Su, Jun Zhang, Xiaoye Qu, Tong Zhu, Yanshu Li, Jiashuo Sun, Juntao Li, Min Zhang, Yu Cheng
cs.AI
要旨
大規模言語モデル(LLMs)は、多くの分野で印象的な進歩を達成していますが、幻覚の主要な原因である知識の衝突という重要な問題はほとんど研究されていませんでした。LLMsの固有の知識と取得した文脈知識との間の衝突を探究した研究はごくわずかであり、LLMsにおける知識の衝突の徹底的な評価はまだ欠けています。この研究の隙間を埋めるために、我々はConflictBankを提案します。これは、知識の衝突を系統的に評価するために開発された初の包括的なベンチマークです。この評価は、(i) 取得した知識に遭遇する衝突、(ii) モデルがエンコードした知識内の衝突、および (iii) これらの衝突形態の相互作用に焦点を当てています。我々の調査は、4つのモデルファミリーと12のLLMインスタンスに掘り下げ、誤情報、時間的な不一致、および意味的な相違から生じる衝突を入念に分析しています。提案された新しい構築フレームワークに基づき、7,453,853の主張-根拠ペアと553,117のQAペアを作成しています。モデルの規模、衝突の原因、および衝突のタイプに関する多くの知見を提示しています。我々は、我々のConflictBankベンチマークがコミュニティが衝突におけるモデルの振る舞いをよりよく理解し、より信頼性の高いLLMsを開発するのに役立つことを望んでいます。
English
Large language models (LLMs) have achieved impressive advancements across
numerous disciplines, yet the critical issue of knowledge conflicts, a major
source of hallucinations, has rarely been studied. Only a few research explored
the conflicts between the inherent knowledge of LLMs and the retrieved
contextual knowledge. However, a thorough assessment of knowledge conflict in
LLMs is still missing. Motivated by this research gap, we present ConflictBank,
the first comprehensive benchmark developed to systematically evaluate
knowledge conflicts from three aspects: (i) conflicts encountered in retrieved
knowledge, (ii) conflicts within the models' encoded knowledge, and (iii) the
interplay between these conflict forms. Our investigation delves into four
model families and twelve LLM instances, meticulously analyzing conflicts
stemming from misinformation, temporal discrepancies, and semantic divergences.
Based on our proposed novel construction framework, we create 7,453,853
claim-evidence pairs and 553,117 QA pairs. We present numerous findings on
model scale, conflict causes, and conflict types. We hope our ConflictBank
benchmark will help the community better understand model behavior in conflicts
and develop more reliable LLMs.Summary
AI-Generated Summary