Come Apprendono i Modelli Linguistici di Grandi Dimensioni i Concetti Durante il Pre-Addestramento Continuo?

Abstract

Gli esseri umani comprendono principalmente il mondo attraverso concetti (ad esempio, "cane"), rappresentazioni mentali astratte che strutturano la percezione, il ragionamento e l'apprendimento. Tuttavia, il modo in cui i grandi modelli linguistici (LLM) acquisiscono, mantengono e dimenticano tali concetti durante il pre-addestramento continuativo rimane poco compreso. In questo lavoro, studiamo come i singoli concetti vengono acquisiti e dimenticati, e come più concetti interagiscano attraverso interferenza e sinergia. Colleghiamo queste dinamiche comportamentali ai Circuiti Concettuali interni degli LLM, sottografi computazionali associati a concetti specifici, e incorporiamo Metriche di Grafo per caratterizzare la struttura del circuito. La nostra analisi rivela: (1) I circuiti concettuali degli LLM forniscono un segnale statisticamente significativo e non banale dell'apprendimento e della dimenticanza dei concetti; (2) I circuiti concettuali mostrano un pattern temporale a stadi durante il pre-addestramento continuativo, con un iniziale aumento seguito da una graduale diminuzione e stabilizzazione; (3) I concetti con maggiori guadagni di apprendimento tendono a mostrare una maggiore dimenticanza sotto addestramento successivo; (4) Concetti semanticamente simili inducono un'interferenza più forte rispetto a concetti debolmente correlati; (5) La conoscenza concettuale differisce nella sua trasferibilità, con alcuni concetti che facilitano significativamente l'apprendimento di altri. Nel complesso, i nostri risultati offrono una visione a livello circuitale delle dinamiche di apprendimento dei concetti e forniscono indicazioni per la progettazione di strategie di addestramento più interpretabili, robuste e consapevoli dei concetti per gli LLM.

English

Human beings primarily understand the world through concepts (e.g., dog), abstract mental representations that structure perception, reasoning, and learning. However, how large language models (LLMs) acquire, retain, and forget such concepts during continual pretraining remains poorly understood. In this work, we study how individual concepts are acquired and forgotten, as well as how multiple concepts interact through interference and synergy. We link these behavioral dynamics to LLMs' internal Concept Circuits, computational subgraphs associated with specific concepts, and incorporate Graph Metrics to characterize circuit structure. Our analysis reveals: (1) LLMs concept circuits provide a non-trivial, statistically significant signal of concept learning and forgetting; (2) Concept circuits exhibit a stage-wise temporal pattern during continual pretraining, with an early increase followed by gradual decrease and stabilization; (3) concepts with larger learning gains tend to exhibit greater forgetting under subsequent training; (4) semantically similar concepts induce stronger interference than weakly related ones; (5) conceptual knowledge differs in their transferability, with some significantly facilitating the learning of others. Together, our findings offer a circuit-level view of concept learning dynamics and inform the design of more interpretable and robust concept-aware training strategies for LLMs.

Come Apprendono i Modelli Linguistici di Grandi Dimensioni i Concetti Durante il Pre-Addestramento Continuo?

How Do Large Language Models Learn Concepts During Continual Pre-Training?

Abstract

Support