双方向言語モデルはより優れた知識記憶装置か?実世界の知識注入のためのベンチマーク
Bidirectional LMs are Better Knowledge Memorizers? A Benchmark for Real-world Knowledge Injection
May 18, 2025
著者: Yuwei Zhang, Wenhao Yu, Shangbin Feng, Yifan Zhu, Letian Peng, Jayanth Srinivasa, Gaowen Liu, Jingbo Shang
cs.AI
要旨
大規模言語モデル(LLM)の著しい進展にもかかわらず、標準化された高品質なテスト環境の不足により、その知識記憶能力は未だ十分に探求されていません。本論文では、人間の介入を必要とせず、時間とともに継続的に進化する、現実世界に基づいた大規模な知識注入ベンチマークを新たに提案します。具体的には、Wikipediaの「Did You Know...」エントリから最近追加された人間が記述した事実を活用したWikiDYKを紹介します。これらのエントリは、検証可能性や明確さなどの基準に基づいて、専門のWikipedia編集者によって慎重に選ばれています。各エントリは、簡単な穴埋めプロンプトから複雑なマルチホップ質問まで、多様なタスク形式にまたがる複数の質問-回答ペアに変換されます。WikiDYKは12,290の事実と77,180の質問を含み、Wikipedia編集者による将来の更新ともシームレスに拡張可能です。継続的な事前学習を用いた大規模な実験から、現代のLLMで広く採用されている因果的言語モデル(CLM)が、双方向言語モデル(BiLM)と比較して、信頼性の観点で23%低い精度を示し、知識記憶能力が著しく弱いという驚くべき洞察が得られました。現在のBiLMの規模が小さいことを補うため、BiLMのアンサンブルを外部知識リポジトリとして活用し、LLMと統合するモジュール型協調フレームワークを導入します。実験結果から、このフレームワークが信頼性精度を最大29.1%向上させることが示されました。
English
Despite significant advances in large language models (LLMs), their knowledge
memorization capabilities remain underexplored, due to the lack of standardized
and high-quality test ground. In this paper, we introduce a novel, real-world
and large-scale knowledge injection benchmark that evolves continuously over
time without requiring human intervention. Specifically, we propose WikiDYK,
which leverages recently-added and human-written facts from Wikipedia's "Did
You Know..." entries. These entries are carefully selected by expert Wikipedia
editors based on criteria such as verifiability and clarity. Each entry is
converted into multiple question-answer pairs spanning diverse task formats
from easy cloze prompts to complex multi-hop questions. WikiDYK contains 12,290
facts and 77,180 questions, which is also seamlessly extensible with future
updates from Wikipedia editors. Extensive experiments using continued
pre-training reveal a surprising insight: despite their prevalence in modern
LLMs, Causal Language Models (CLMs) demonstrate significantly weaker knowledge
memorization capabilities compared to Bidirectional Language Models (BiLMs),
exhibiting a 23% lower accuracy in terms of reliability. To compensate for the
smaller scales of current BiLMs, we introduce a modular collaborative framework
utilizing ensembles of BiLMs as external knowledge repositories to integrate
with LLMs. Experiment shows that our framework further improves the reliability
accuracy by up to 29.1%.Summary
AI-Generated Summary