Les modèles de langage bidirectionnels sont-ils de meilleurs mémorisateurs de connaissances ? Un benchmark pour l'injection de connaissances dans le monde réel
Bidirectional LMs are Better Knowledge Memorizers? A Benchmark for Real-world Knowledge Injection
May 18, 2025
Auteurs: Yuwei Zhang, Wenhao Yu, Shangbin Feng, Yifan Zhu, Letian Peng, Jayanth Srinivasa, Gaowen Liu, Jingbo Shang
cs.AI
Résumé
Malgré les avancées significatives des grands modèles de langage (LLMs), leurs capacités de mémorisation des connaissances restent sous-explorées, en raison du manque de terrain d'essai standardisé et de haute qualité. Dans cet article, nous introduisons un nouveau benchmark d'injection de connaissances à grande échelle et basé sur le monde réel, qui évolue continuellement dans le temps sans nécessiter d'intervention humaine. Plus précisément, nous proposons WikiDYK, qui exploite des faits récemment ajoutés et rédigés par des humains provenant des entrées "Le saviez-vous..." de Wikipédia. Ces entrées sont soigneusement sélectionnées par des éditeurs experts de Wikipédia sur la base de critères tels que la vérifiabilité et la clarté. Chaque entrée est convertie en plusieurs paires question-réponse couvrant divers formats de tâches, allant des invites de type cloze simples aux questions complexes à sauts multiples. WikiDYK contient 12 290 faits et 77 180 questions, et est également extensible de manière transparente avec les futures mises à jour des éditeurs de Wikipédia. Des expériences approfondies utilisant un pré-entraînement continu révèlent une observation surprenante : malgré leur prévalence dans les LLMs modernes, les modèles de langage causaux (CLMs) démontrent des capacités de mémorisation des connaissances significativement plus faibles par rapport aux modèles de langage bidirectionnels (BiLMs), affichant une précision de fiabilité inférieure de 23 %. Pour compenser les échelles plus réduites des BiLMs actuels, nous introduisons un cadre collaboratif modulaire utilisant des ensembles de BiLMs comme référentiels de connaissances externes à intégrer avec les LLMs. Les expériences montrent que notre cadre améliore encore la précision de fiabilité jusqu'à 29,1 %.
English
Despite significant advances in large language models (LLMs), their knowledge
memorization capabilities remain underexplored, due to the lack of standardized
and high-quality test ground. In this paper, we introduce a novel, real-world
and large-scale knowledge injection benchmark that evolves continuously over
time without requiring human intervention. Specifically, we propose WikiDYK,
which leverages recently-added and human-written facts from Wikipedia's "Did
You Know..." entries. These entries are carefully selected by expert Wikipedia
editors based on criteria such as verifiability and clarity. Each entry is
converted into multiple question-answer pairs spanning diverse task formats
from easy cloze prompts to complex multi-hop questions. WikiDYK contains 12,290
facts and 77,180 questions, which is also seamlessly extensible with future
updates from Wikipedia editors. Extensive experiments using continued
pre-training reveal a surprising insight: despite their prevalence in modern
LLMs, Causal Language Models (CLMs) demonstrate significantly weaker knowledge
memorization capabilities compared to Bidirectional Language Models (BiLMs),
exhibiting a 23% lower accuracy in terms of reliability. To compensate for the
smaller scales of current BiLMs, we introduce a modular collaborative framework
utilizing ensembles of BiLMs as external knowledge repositories to integrate
with LLMs. Experiment shows that our framework further improves the reliability
accuracy by up to 29.1%.Summary
AI-Generated Summary