Comment les grands modèles de langage apprennent-ils les concepts lors de l'apprentissage continu préalable ?
How Do Large Language Models Learn Concepts During Continual Pre-Training?
January 7, 2026
papers.authors: Barry Menglong Yao, Sha Li, Yunzhi Yao, Minqian Liu, Zaishuo Xia, Qifan Wang, Lifu Huang
cs.AI
papers.abstract
Les êtres humains comprennent principalement le monde à travers des concepts (par exemple, chien), des représentations mentales abstraites qui structurent la perception, le raisonnement et l'apprentissage. Cependant, la manière dont les grands modèles de langage (LLMs) acquièrent, retiennent et oublient ces concepts lors d'un pré-entraînement continu reste mal comprise. Dans ce travail, nous étudions comment les concepts individuels sont acquis et oubliés, ainsi que la manière dont plusieurs concepts interagissent via l'interférence et la synergie. Nous lions ces dynamiques comportementales aux Circuits Conceptuels internes des LLMs, des sous-graphes computationnels associés à des concepts spécifiques, et intégrons des Métriques de Graphes pour caractériser la structure des circuits. Notre analyse révèle : (1) Les circuits conceptuels des LLMs fournissent un signal non trivial et statistiquement significatif de l'apprentissage et de l'oubli des concepts ; (2) Les circuits conceptuels présentent un motif temporel par étapes durant le pré-entraînement continu, avec une augmentation initiale suivie d'une diminution graduelle puis d'une stabilisation ; (3) Les concepts avec des gains d'apprentissage plus importants tendent à présenter un oubli plus marqué lors des entraînements ultérieurs ; (4) Les concepts sémantiquement similaires induisent une interférence plus forte que les concepts faiblement liés ; (5) Les connaissances conceptuelles diffèrent dans leur transférabilité, certaines facilitant significativement l'apprentissage d'autres. Ensemble, nos résultats offrent une vue au niveau des circuits de la dynamique d'apprentissage des concepts et éclairent la conception de stratégies d'entraînement plus interprétables et robustes, conscientes des concepts, pour les LLMs.
English
Human beings primarily understand the world through concepts (e.g., dog), abstract mental representations that structure perception, reasoning, and learning. However, how large language models (LLMs) acquire, retain, and forget such concepts during continual pretraining remains poorly understood. In this work, we study how individual concepts are acquired and forgotten, as well as how multiple concepts interact through interference and synergy. We link these behavioral dynamics to LLMs' internal Concept Circuits, computational subgraphs associated with specific concepts, and incorporate Graph Metrics to characterize circuit structure. Our analysis reveals: (1) LLMs concept circuits provide a non-trivial, statistically significant signal of concept learning and forgetting; (2) Concept circuits exhibit a stage-wise temporal pattern during continual pretraining, with an early increase followed by gradual decrease and stabilization; (3) concepts with larger learning gains tend to exhibit greater forgetting under subsequent training; (4) semantically similar concepts induce stronger interference than weakly related ones; (5) conceptual knowledge differs in their transferability, with some significantly facilitating the learning of others. Together, our findings offer a circuit-level view of concept learning dynamics and inform the design of more interpretable and robust concept-aware training strategies for LLMs.