ChatPaper.aiChatPaper

Hoe Leren Grote Taalmodellen Concepten Tijdens Continue Voorafgaande Training?

How Do Large Language Models Learn Concepts During Continual Pre-Training?

January 7, 2026
Auteurs: Barry Menglong Yao, Sha Li, Yunzhi Yao, Minqian Liu, Zaishuo Xia, Qifan Wang, Lifu Huang
cs.AI

Samenvatting

Mensen begrijpen de wereld voornamelijk via concepten (bijvoorbeeld 'hond'), abstracte mentale representaties die waarneming, redeneren en leren structureren. Hoe grote taalmodellen (LLM's) dergelijke concepten verwerven, behouden en vergeten tijdens continu vooraf trainen, blijft echter grotendeels onduidelijk. In dit werk bestuderen we hoe individuele concepten worden verworven en vergeten, evenals hoe meerdere concepten interacteren via interferentie en synergie. We verbinden deze gedragsdinamiek met de interne Concept Circuits van LLM's, computationele subgrafen geassocieerd met specifieke concepten, en integreren Grafiek Metrieken om de circuitstructuur te karakteriseren. Onze analyse onthult: (1) Concept circuits van LLM's geven een niet-triviaal, statistisch significant signaal van conceptverwerving en -vergeten; (2) Concept circuits vertonen een stapsgewijs temporeel patroon tijdens continu vooraf trainen, met een vroege toename gevolgd door een geleidelijke afname en stabilisatie; (3) Concepten met grotere leerwinst vertonen doorgaans meer vergetelheid bij vervolgtraining; (4) Semantisch vergelijkbare concepten veroorzaken sterkere interferentie dan zwak verwante concepten; (5) Conceptuele kennis verschilt in overdraagbaarheid, waarbij sommige concepten het leren van anderen significant vergemakkelijken. Gezamenlijk bieden onze bevindingen een circuitniveau-perspectief op conceptleerdynamiek en informeren ze het ontwerp van meer interpreteerbare en robuuste conceptbewuste trainingsstrategieën voor LLM's.
English
Human beings primarily understand the world through concepts (e.g., dog), abstract mental representations that structure perception, reasoning, and learning. However, how large language models (LLMs) acquire, retain, and forget such concepts during continual pretraining remains poorly understood. In this work, we study how individual concepts are acquired and forgotten, as well as how multiple concepts interact through interference and synergy. We link these behavioral dynamics to LLMs' internal Concept Circuits, computational subgraphs associated with specific concepts, and incorporate Graph Metrics to characterize circuit structure. Our analysis reveals: (1) LLMs concept circuits provide a non-trivial, statistically significant signal of concept learning and forgetting; (2) Concept circuits exhibit a stage-wise temporal pattern during continual pretraining, with an early increase followed by gradual decrease and stabilization; (3) concepts with larger learning gains tend to exhibit greater forgetting under subsequent training; (4) semantically similar concepts induce stronger interference than weakly related ones; (5) conceptual knowledge differs in their transferability, with some significantly facilitating the learning of others. Together, our findings offer a circuit-level view of concept learning dynamics and inform the design of more interpretable and robust concept-aware training strategies for LLMs.
PDF43January 31, 2026