LMEnt: Una Suite per Analizzare la Conoscenza nei Modelli Linguistici dai Dati di Pretraining alle Rappresentazioni
LMEnt: A Suite for Analyzing Knowledge in Language Models from Pretraining Data to Representations
September 3, 2025
Autori: Daniela Gottesman, Alon Gilae-Dotan, Ido Cohen, Yoav Gur-Arieh, Marius Mosbach, Ori Yoran, Mor Geva
cs.AI
Abstract
I modelli linguistici (LM) stanno sempre più alimentando applicazioni del mondo reale che richiedono conoscenza del mondo. Tuttavia, i processi interni attraverso i quali i modelli trasformano i dati in rappresentazioni di conoscenza e credenze sul mondo sono poco compresi. Approfondimenti su questi processi potrebbero aprire la strada allo sviluppo di LM con rappresentazioni di conoscenza più coerenti, robuste e complete. Per facilitare lo studio di queste questioni, presentiamo LMEnt, una suite per analizzare l'acquisizione di conoscenza nei LM durante il pre-training. LMEnt introduce: (1) un corpus di pre-training ricco di conoscenza, completamente annotato con menzioni di entità, basato su Wikipedia, (2) un metodo di recupero basato su entità sui dati di pre-training che supera i precedenti approcci fino all'80,4%, e (3) 12 modelli pre-addestrati con fino a 1 miliardo di parametri e 4.000 checkpoint intermedi, con prestazioni comparabili a modelli open-source popolari su benchmark di conoscenza. Insieme, queste risorse forniscono un ambiente controllato per analizzare le connessioni tra le menzioni di entità nel pre-training e le prestazioni a valle, e gli effetti di interventi causali nei dati di pre-training. Dimostriamo l'utilità di LMEnt studiando l'acquisizione di conoscenza attraverso i checkpoint, scoprendo che la frequenza dei fatti è fondamentale, ma non spiega completamente le tendenze di apprendimento. Rilasciamo LMEnt per supportare studi sulla conoscenza nei LM, inclusi rappresentazioni di conoscenza, plasticità, modifica, attribuzione e dinamiche di apprendimento.
English
Language models (LMs) increasingly drive real-world applications that require
world knowledge. However, the internal processes through which models turn data
into representations of knowledge and beliefs about the world, are poorly
understood. Insights into these processes could pave the way for developing LMs
with knowledge representations that are more consistent, robust, and complete.
To facilitate studying these questions, we present LMEnt, a suite for analyzing
knowledge acquisition in LMs during pretraining. LMEnt introduces: (1) a
knowledge-rich pretraining corpus, fully annotated with entity mentions, based
on Wikipedia, (2) an entity-based retrieval method over pretraining data that
outperforms previous approaches by as much as 80.4%, and (3) 12 pretrained
models with up to 1B parameters and 4K intermediate checkpoints, with
comparable performance to popular open-sourced models on knowledge benchmarks.
Together, these resources provide a controlled environment for analyzing
connections between entity mentions in pretraining and downstream performance,
and the effects of causal interventions in pretraining data. We show the
utility of LMEnt by studying knowledge acquisition across checkpoints, finding
that fact frequency is key, but does not fully explain learning trends. We
release LMEnt to support studies of knowledge in LMs, including knowledge
representations, plasticity, editing, attribution, and learning dynamics.