LMEnt : Une suite pour analyser les connaissances dans les modèles de langage, des données de pré-entraînement aux représentations
LMEnt: A Suite for Analyzing Knowledge in Language Models from Pretraining Data to Representations
September 3, 2025
papers.authors: Daniela Gottesman, Alon Gilae-Dotan, Ido Cohen, Yoav Gur-Arieh, Marius Mosbach, Ori Yoran, Mor Geva
cs.AI
papers.abstract
Les modèles de langage (LMs) alimentent de plus en plus d'applications réelles nécessitant une connaissance du monde. Cependant, les processus internes par lesquels ces modèles transforment les données en représentations de connaissances et de croyances sur le monde sont mal compris. Une meilleure compréhension de ces processus pourrait ouvrir la voie au développement de LMs dotés de représentations de connaissances plus cohérentes, robustes et complètes. Pour faciliter l'étude de ces questions, nous présentons LMEnt, une suite d'outils pour analyser l'acquisition de connaissances dans les LMs pendant le pré-entraînement. LMEnt introduit : (1) un corpus de pré-entraînement riche en connaissances, entièrement annoté avec des mentions d'entités, basé sur Wikipédia, (2) une méthode de récupération basée sur les entités sur les données de pré-entraînement qui surpasse les approches précédentes jusqu'à 80,4 %, et (3) 12 modèles pré-entraînés avec jusqu'à 1 milliard de paramètres et 4 000 points de contrôle intermédiaires, offrant des performances comparables aux modèles open-source populaires sur les benchmarks de connaissances. Ensemble, ces ressources fournissent un environnement contrôlé pour analyser les liens entre les mentions d'entités pendant le pré-entraînement et les performances en aval, ainsi que les effets des interventions causales dans les données de pré-entraînement. Nous démontrons l'utilité de LMEnt en étudiant l'acquisition de connaissances à travers les points de contrôle, constatant que la fréquence des faits est clé, mais n'explique pas entièrement les tendances d'apprentissage. Nous publions LMEnt pour soutenir les études sur les connaissances dans les LMs, y compris les représentations de connaissances, la plasticité, l'édition, l'attribution et la dynamique d'apprentissage.
English
Language models (LMs) increasingly drive real-world applications that require
world knowledge. However, the internal processes through which models turn data
into representations of knowledge and beliefs about the world, are poorly
understood. Insights into these processes could pave the way for developing LMs
with knowledge representations that are more consistent, robust, and complete.
To facilitate studying these questions, we present LMEnt, a suite for analyzing
knowledge acquisition in LMs during pretraining. LMEnt introduces: (1) a
knowledge-rich pretraining corpus, fully annotated with entity mentions, based
on Wikipedia, (2) an entity-based retrieval method over pretraining data that
outperforms previous approaches by as much as 80.4%, and (3) 12 pretrained
models with up to 1B parameters and 4K intermediate checkpoints, with
comparable performance to popular open-sourced models on knowledge benchmarks.
Together, these resources provide a controlled environment for analyzing
connections between entity mentions in pretraining and downstream performance,
and the effects of causal interventions in pretraining data. We show the
utility of LMEnt by studying knowledge acquisition across checkpoints, finding
that fact frequency is key, but does not fully explain learning trends. We
release LMEnt to support studies of knowledge in LMs, including knowledge
representations, plasticity, editing, attribution, and learning dynamics.