Dario Garcia-Gasulla, Jordi Bayarri-Planas, Ashwin Kumar Gururajan, Enrique Lopez-Cuena, Adrian Tormos, Daniel Hinjos, Pablo Bernabeu-Perez, Anna Arias-Duart, Pablo Agustin Martin-Torres, Marta Gonzalez-Mallo, Sergio Alvarez-Napagao, Eduard Ayguadé-Parra, Ulises Cortés
大規模言語モデル(LLM)の著しい進展にもかかわらず、標準化された高品質なテスト環境の不足により、その知識記憶能力は未だ十分に探求されていません。本論文では、人間の介入を必要とせず、時間とともに継続的に進化する、現実世界に基づいた大規模な知識注入ベンチマークを新たに提案します。具体的には、Wikipediaの「Did You Know...」エントリから最近追加された人間が記述した事実を活用したWikiDYKを紹介します。これらのエントリは、検証可能性や明確さなどの基準に基づいて、専門のWikipedia編集者によって慎重に選ばれています。各エントリは、簡単な穴埋めプロンプトから複雑なマルチホップ質問まで、多様なタスク形式にまたがる複数の質問-回答ペアに変換されます。WikiDYKは12,290の事実と77,180の質問を含み、Wikipedia編集者による将来の更新ともシームレスに拡張可能です。継続的な事前学習を用いた大規模な実験から、現代のLLMで広く採用されている因果的言語モデル(CLM)が、双方向言語モデル(BiLM)と比較して、信頼性の観点で23%低い精度を示し、知識記憶能力が著しく弱いという驚くべき洞察が得られました。現在のBiLMの規模が小さいことを補うため、BiLMのアンサンブルを外部知識リポジトリとして活用し、LLMと統合するモジュール型協調フレームワークを導入します。実験結果から、このフレームワークが信頼性精度を最大29.1%向上させることが示されました。