양방향 언어 모델이 더 나은 지식 기억 장치인가? 실세계 지식 주입을 위한 벤치마크
Bidirectional LMs are Better Knowledge Memorizers? A Benchmark for Real-world Knowledge Injection
May 18, 2025
저자: Yuwei Zhang, Wenhao Yu, Shangbin Feng, Yifan Zhu, Letian Peng, Jayanth Srinivasa, Gaowen Liu, Jingbo Shang
cs.AI
초록
대규모 언어 모델(LLM)의 상당한 발전에도 불구하고, 표준화되고 고품질의 테스트 환경이 부족하여 이들의 지식 암기 능력은 여전히 충분히 탐구되지 못했습니다. 본 논문에서는 인간의 개입 없이 지속적으로 진화하는 새로운 실세계 대규모 지식 주입 벤치마크를 소개합니다. 구체적으로, 우리는 위키백과의 "Did You Know..." 항목에서 최근 추가된 인간이 작성한 사실들을 활용한 WikiDYK를 제안합니다. 이러한 항목들은 검증 가능성과 명확성 등의 기준에 따라 위키백과 전문 편집자들이 신중하게 선별합니다. 각 항목은 쉬운 빈칸 채우기 프롬프트부터 복잡한 다중 홉 질문까지 다양한 작업 형식에 걸친 여러 질문-답변 쌍으로 변환됩니다. WikiDYK는 12,290개의 사실과 77,180개의 질문을 포함하며, 위키백과 편집자들의 향후 업데이트와도 원활하게 확장 가능합니다. 지속적인 사전 학습을 사용한 광범위한 실험은 현대 LLM에서 널리 사용되는 인과적 언어 모델(CLM)이 양방향 언어 모델(BiLM)에 비해 지식 암기 능력이 현저히 약하며, 신뢰도 측면에서 23% 낮은 정확도를 보인다는 놀라운 통찰을 밝혀냈습니다. 현재 BiLM의 규모가 작은 점을 보완하기 위해, 우리는 BiLM 앙상블을 외부 지식 저장소로 활용하여 LLM과 통합하는 모듈형 협업 프레임워크를 도입했습니다. 실험 결과, 우리의 프레임워크는 신뢰도 정확도를 최대 29.1%까지 더욱 향상시켰습니다.
English
Despite significant advances in large language models (LLMs), their knowledge
memorization capabilities remain underexplored, due to the lack of standardized
and high-quality test ground. In this paper, we introduce a novel, real-world
and large-scale knowledge injection benchmark that evolves continuously over
time without requiring human intervention. Specifically, we propose WikiDYK,
which leverages recently-added and human-written facts from Wikipedia's "Did
You Know..." entries. These entries are carefully selected by expert Wikipedia
editors based on criteria such as verifiability and clarity. Each entry is
converted into multiple question-answer pairs spanning diverse task formats
from easy cloze prompts to complex multi-hop questions. WikiDYK contains 12,290
facts and 77,180 questions, which is also seamlessly extensible with future
updates from Wikipedia editors. Extensive experiments using continued
pre-training reveal a surprising insight: despite their prevalence in modern
LLMs, Causal Language Models (CLMs) demonstrate significantly weaker knowledge
memorization capabilities compared to Bidirectional Language Models (BiLMs),
exhibiting a 23% lower accuracy in terms of reliability. To compensate for the
smaller scales of current BiLMs, we introduce a modular collaborative framework
utilizing ensembles of BiLMs as external knowledge repositories to integrate
with LLMs. Experiment shows that our framework further improves the reliability
accuracy by up to 29.1%.Summary
AI-Generated Summary