Двунаправленные языковые модели — лучшие запоминатели знаний? Бенчмарк для внедрения знаний в реальных условиях
Bidirectional LMs are Better Knowledge Memorizers? A Benchmark for Real-world Knowledge Injection
May 18, 2025
Авторы: Yuwei Zhang, Wenhao Yu, Shangbin Feng, Yifan Zhu, Letian Peng, Jayanth Srinivasa, Gaowen Liu, Jingbo Shang
cs.AI
Аннотация
Несмотря на значительные успехи в области больших языковых моделей (LLM), их способности к запоминанию знаний остаются недостаточно изученными из-за отсутствия стандартизированных и качественных тестовых сред. В данной статье мы представляем новый, основанный на реальных данных и масштабируемый бенчмарк для инъекции знаний, который непрерывно развивается без необходимости вмешательства человека. В частности, мы предлагаем WikiDYK, который использует недавно добавленные и написанные человеком факты из разделов "Знаете ли вы..." Википедии. Эти записи тщательно отбираются опытными редакторами Википедии на основе таких критериев, как проверяемость и ясность. Каждая запись преобразуется в несколько пар "вопрос-ответ", охватывающих разнообразные форматы задач — от простых заданий с пропусками до сложных многошаговых вопросов. WikiDYK содержит 12 290 фактов и 77 180 вопросов, а также легко расширяется за счет будущих обновлений от редакторов Википедии. Масштабные эксперименты с использованием продолженного предобучения выявили удивительный факт: несмотря на их распространенность в современных LLM, каузальные языковые модели (CLM) демонстрируют значительно более слабые способности к запоминанию знаний по сравнению с двунаправленными языковыми моделями (BiLM), показывая на 23% более низкую точность с точки зрения надежности. Чтобы компенсировать меньшие масштабы текущих BiLM, мы предлагаем модульную совместную структуру, использующую ансамбли BiLM в качестве внешних хранилищ знаний для интеграции с LLM. Эксперименты показывают, что наша структура дополнительно повышает точность надежности до 29,1%.
English
Despite significant advances in large language models (LLMs), their knowledge
memorization capabilities remain underexplored, due to the lack of standardized
and high-quality test ground. In this paper, we introduce a novel, real-world
and large-scale knowledge injection benchmark that evolves continuously over
time without requiring human intervention. Specifically, we propose WikiDYK,
which leverages recently-added and human-written facts from Wikipedia's "Did
You Know..." entries. These entries are carefully selected by expert Wikipedia
editors based on criteria such as verifiability and clarity. Each entry is
converted into multiple question-answer pairs spanning diverse task formats
from easy cloze prompts to complex multi-hop questions. WikiDYK contains 12,290
facts and 77,180 questions, which is also seamlessly extensible with future
updates from Wikipedia editors. Extensive experiments using continued
pre-training reveal a surprising insight: despite their prevalence in modern
LLMs, Causal Language Models (CLMs) demonstrate significantly weaker knowledge
memorization capabilities compared to Bidirectional Language Models (BiLMs),
exhibiting a 23% lower accuracy in terms of reliability. To compensate for the
smaller scales of current BiLMs, we introduce a modular collaborative framework
utilizing ensembles of BiLMs as external knowledge repositories to integrate
with LLMs. Experiment shows that our framework further improves the reliability
accuracy by up to 29.1%.Summary
AI-Generated Summary