LMEnt: Eine Suite zur Analyse von Wissen in Sprachmodellen von Vortrainingsdaten bis zu Repräsentationen
LMEnt: A Suite for Analyzing Knowledge in Language Models from Pretraining Data to Representations
September 3, 2025
papers.authors: Daniela Gottesman, Alon Gilae-Dotan, Ido Cohen, Yoav Gur-Arieh, Marius Mosbach, Ori Yoran, Mor Geva
cs.AI
papers.abstract
Sprachmodelle (LMs) treiben zunehmend reale Anwendungen an, die Weltwissen erfordern. Die internen Prozesse, durch die Modelle Daten in Repräsentationen von Wissen und Überzeugungen über die Welt umwandeln, sind jedoch kaum verstanden. Einblicke in diese Prozesse könnten den Weg ebnen, um LMs mit Wissensrepräsentationen zu entwickeln, die konsistenter, robuster und vollständiger sind. Um die Untersuchung dieser Fragen zu erleichtern, präsentieren wir LMEnt, eine Suite zur Analyse des Wissenserwerbs in LMs während des Vortrainings. LMEnt führt ein: (1) ein wissensreiches Vortrainingskorpus, vollständig annotiert mit Erwähnungen von Entitäten, basierend auf Wikipedia, (2) eine entitätsbasierte Retrieval-Methode über Vortrainingsdaten, die bisherige Ansätze um bis zu 80,4 % übertrifft, und (3) 12 vortrainierte Modelle mit bis zu 1B Parametern und 4K Zwischencheckpoints, die auf Wissensbenchmarks vergleichbare Leistungen zu populären Open-Source-Modellen aufweisen. Zusammen bieten diese Ressourcen eine kontrollierte Umgebung zur Analyse der Verbindungen zwischen Entitätserwähnungen im Vortraining und der Downstream-Leistung sowie der Auswirkungen von kausalen Interventionen in den Vortrainingsdaten. Wir zeigen den Nutzen von LMEnt, indem wir den Wissenserwerb über Checkpoints hinweg untersuchen und feststellen, dass die Häufigkeit von Fakten entscheidend ist, aber die Lerntrends nicht vollständig erklärt. Wir veröffentlichen LMEnt, um Studien zu Wissen in LMs zu unterstützen, einschließlich Wissensrepräsentationen, Plastizität, Bearbeitung, Attribution und Lerndynamiken.
English
Language models (LMs) increasingly drive real-world applications that require
world knowledge. However, the internal processes through which models turn data
into representations of knowledge and beliefs about the world, are poorly
understood. Insights into these processes could pave the way for developing LMs
with knowledge representations that are more consistent, robust, and complete.
To facilitate studying these questions, we present LMEnt, a suite for analyzing
knowledge acquisition in LMs during pretraining. LMEnt introduces: (1) a
knowledge-rich pretraining corpus, fully annotated with entity mentions, based
on Wikipedia, (2) an entity-based retrieval method over pretraining data that
outperforms previous approaches by as much as 80.4%, and (3) 12 pretrained
models with up to 1B parameters and 4K intermediate checkpoints, with
comparable performance to popular open-sourced models on knowledge benchmarks.
Together, these resources provide a controlled environment for analyzing
connections between entity mentions in pretraining and downstream performance,
and the effects of causal interventions in pretraining data. We show the
utility of LMEnt by studying knowledge acquisition across checkpoints, finding
that fact frequency is key, but does not fully explain learning trends. We
release LMEnt to support studies of knowledge in LMs, including knowledge
representations, plasticity, editing, attribution, and learning dynamics.