¿Los modelos de lenguaje bidireccionales son mejores memorizadores de conocimiento? Un punto de referencia para la inyección de conocimiento en el mundo real
Bidirectional LMs are Better Knowledge Memorizers? A Benchmark for Real-world Knowledge Injection
May 18, 2025
Autores: Yuwei Zhang, Wenhao Yu, Shangbin Feng, Yifan Zhu, Letian Peng, Jayanth Srinivasa, Gaowen Liu, Jingbo Shang
cs.AI
Resumen
A pesar de los avances significativos en los modelos de lenguaje de gran escala (LLMs), sus capacidades de memorización de conocimiento siguen siendo poco exploradas, debido a la falta de un terreno de prueba estandarizado y de alta calidad. En este artículo, presentamos un nuevo benchmark de inyección de conocimiento a gran escala y del mundo real que evoluciona continuamente sin requerir intervención humana. Específicamente, proponemos WikiDYK, que aprovecha hechos recientemente añadidos y escritos por humanos de las entradas "¿Sabías que..." de Wikipedia. Estas entradas son cuidadosamente seleccionadas por editores expertos de Wikipedia basándose en criterios como la verificabilidad y la claridad. Cada entrada se convierte en múltiples pares de preguntas y respuestas que abarcan diversos formatos de tareas, desde indicaciones de rellenado sencillas hasta preguntas complejas de múltiples saltos. WikiDYK contiene 12,290 hechos y 77,180 preguntas, y también es perfectamente extensible con futuras actualizaciones de los editores de Wikipedia. Experimentos extensivos utilizando pre-entrenamiento continuo revelan una perspectiva sorprendente: a pesar de su prevalencia en los LLMs modernos, los Modelos de Lenguaje Causales (CLMs) demuestran capacidades de memorización de conocimiento significativamente más débiles en comparación con los Modelos de Lenguaje Bidireccionales (BiLMs), exhibiendo un 23% menos de precisión en términos de fiabilidad. Para compensar las escalas más pequeñas de los BiLMs actuales, introducimos un marco colaborativo modular que utiliza conjuntos de BiLMs como repositorios de conocimiento externo para integrarse con los LLMs. Los experimentos muestran que nuestro marco mejora aún más la precisión de fiabilidad hasta en un 29.1%.
English
Despite significant advances in large language models (LLMs), their knowledge
memorization capabilities remain underexplored, due to the lack of standardized
and high-quality test ground. In this paper, we introduce a novel, real-world
and large-scale knowledge injection benchmark that evolves continuously over
time without requiring human intervention. Specifically, we propose WikiDYK,
which leverages recently-added and human-written facts from Wikipedia's "Did
You Know..." entries. These entries are carefully selected by expert Wikipedia
editors based on criteria such as verifiability and clarity. Each entry is
converted into multiple question-answer pairs spanning diverse task formats
from easy cloze prompts to complex multi-hop questions. WikiDYK contains 12,290
facts and 77,180 questions, which is also seamlessly extensible with future
updates from Wikipedia editors. Extensive experiments using continued
pre-training reveal a surprising insight: despite their prevalence in modern
LLMs, Causal Language Models (CLMs) demonstrate significantly weaker knowledge
memorization capabilities compared to Bidirectional Language Models (BiLMs),
exhibiting a 23% lower accuracy in terms of reliability. To compensate for the
smaller scales of current BiLMs, we introduce a modular collaborative framework
utilizing ensembles of BiLMs as external knowledge repositories to integrate
with LLMs. Experiment shows that our framework further improves the reliability
accuracy by up to 29.1%.Summary
AI-Generated Summary