Двунаправленные языковые модели — лучшие запоминатели знаний? Бенчмарк для внедрения знаний в реальных условиях

Аннотация

Несмотря на значительные успехи в области больших языковых моделей (LLM), их способности к запоминанию знаний остаются недостаточно изученными из-за отсутствия стандартизированных и качественных тестовых сред. В данной статье мы представляем новый, основанный на реальных данных и масштабируемый бенчмарк для инъекции знаний, который непрерывно развивается без необходимости вмешательства человека. В частности, мы предлагаем WikiDYK, который использует недавно добавленные и написанные человеком факты из разделов "Знаете ли вы..." Википедии. Эти записи тщательно отбираются опытными редакторами Википедии на основе таких критериев, как проверяемость и ясность. Каждая запись преобразуется в несколько пар "вопрос-ответ", охватывающих разнообразные форматы задач — от простых заданий с пропусками до сложных многошаговых вопросов. WikiDYK содержит 12 290 фактов и 77 180 вопросов, а также легко расширяется за счет будущих обновлений от редакторов Википедии. Масштабные эксперименты с использованием продолженного предобучения выявили удивительный факт: несмотря на их распространенность в современных LLM, каузальные языковые модели (CLM) демонстрируют значительно более слабые способности к запоминанию знаний по сравнению с двунаправленными языковыми моделями (BiLM), показывая на 23% более низкую точность с точки зрения надежности. Чтобы компенсировать меньшие масштабы текущих BiLM, мы предлагаем модульную совместную структуру, использующую ансамбли BiLM в качестве внешних хранилищ знаний для интеграции с LLM. Эксперименты показывают, что наша структура дополнительно повышает точность надежности до 29,1%.

English

Despite significant advances in large language models (LLMs), their knowledge memorization capabilities remain underexplored, due to the lack of standardized and high-quality test ground. In this paper, we introduce a novel, real-world and large-scale knowledge injection benchmark that evolves continuously over time without requiring human intervention. Specifically, we propose WikiDYK, which leverages recently-added and human-written facts from Wikipedia's "Did You Know..." entries. These entries are carefully selected by expert Wikipedia editors based on criteria such as verifiability and clarity. Each entry is converted into multiple question-answer pairs spanning diverse task formats from easy cloze prompts to complex multi-hop questions. WikiDYK contains 12,290 facts and 77,180 questions, which is also seamlessly extensible with future updates from Wikipedia editors. Extensive experiments using continued pre-training reveal a surprising insight: despite their prevalence in modern LLMs, Causal Language Models (CLMs) demonstrate significantly weaker knowledge memorization capabilities compared to Bidirectional Language Models (BiLMs), exhibiting a 23% lower accuracy in terms of reliability. To compensate for the smaller scales of current BiLMs, we introduce a modular collaborative framework utilizing ensembles of BiLMs as external knowledge repositories to integrate with LLMs. Experiment shows that our framework further improves the reliability accuracy by up to 29.1%.

Двунаправленные языковые модели — лучшие запоминатели знаний? Бенчмарк для внедрения знаний в реальных условиях

Bidirectional LMs are Better Knowledge Memorizers? A Benchmark for Real-world Knowledge Injection

Аннотация

Support