¿Los modelos de lenguaje bidireccionales son mejores memorizadores de conocimiento? Un punto de referencia para la inyección de conocimiento en el mundo real

Resumen

A pesar de los avances significativos en los modelos de lenguaje de gran escala (LLMs), sus capacidades de memorización de conocimiento siguen siendo poco exploradas, debido a la falta de un terreno de prueba estandarizado y de alta calidad. En este artículo, presentamos un nuevo benchmark de inyección de conocimiento a gran escala y del mundo real que evoluciona continuamente sin requerir intervención humana. Específicamente, proponemos WikiDYK, que aprovecha hechos recientemente añadidos y escritos por humanos de las entradas "¿Sabías que..." de Wikipedia. Estas entradas son cuidadosamente seleccionadas por editores expertos de Wikipedia basándose en criterios como la verificabilidad y la claridad. Cada entrada se convierte en múltiples pares de preguntas y respuestas que abarcan diversos formatos de tareas, desde indicaciones de rellenado sencillas hasta preguntas complejas de múltiples saltos. WikiDYK contiene 12,290 hechos y 77,180 preguntas, y también es perfectamente extensible con futuras actualizaciones de los editores de Wikipedia. Experimentos extensivos utilizando pre-entrenamiento continuo revelan una perspectiva sorprendente: a pesar de su prevalencia en los LLMs modernos, los Modelos de Lenguaje Causales (CLMs) demuestran capacidades de memorización de conocimiento significativamente más débiles en comparación con los Modelos de Lenguaje Bidireccionales (BiLMs), exhibiendo un 23% menos de precisión en términos de fiabilidad. Para compensar las escalas más pequeñas de los BiLMs actuales, introducimos un marco colaborativo modular que utiliza conjuntos de BiLMs como repositorios de conocimiento externo para integrarse con los LLMs. Los experimentos muestran que nuestro marco mejora aún más la precisión de fiabilidad hasta en un 29.1%.

English

Despite significant advances in large language models (LLMs), their knowledge memorization capabilities remain underexplored, due to the lack of standardized and high-quality test ground. In this paper, we introduce a novel, real-world and large-scale knowledge injection benchmark that evolves continuously over time without requiring human intervention. Specifically, we propose WikiDYK, which leverages recently-added and human-written facts from Wikipedia's "Did You Know..." entries. These entries are carefully selected by expert Wikipedia editors based on criteria such as verifiability and clarity. Each entry is converted into multiple question-answer pairs spanning diverse task formats from easy cloze prompts to complex multi-hop questions. WikiDYK contains 12,290 facts and 77,180 questions, which is also seamlessly extensible with future updates from Wikipedia editors. Extensive experiments using continued pre-training reveal a surprising insight: despite their prevalence in modern LLMs, Causal Language Models (CLMs) demonstrate significantly weaker knowledge memorization capabilities compared to Bidirectional Language Models (BiLMs), exhibiting a 23% lower accuracy in terms of reliability. To compensate for the smaller scales of current BiLMs, we introduce a modular collaborative framework utilizing ensembles of BiLMs as external knowledge repositories to integrate with LLMs. Experiment shows that our framework further improves the reliability accuracy by up to 29.1%.

¿Los modelos de lenguaje bidireccionales son mejores memorizadores de conocimiento? Un punto de referencia para la inyección de conocimiento en el mundo real

Bidirectional LMs are Better Knowledge Memorizers? A Benchmark for Real-world Knowledge Injection

Resumen

Support