大規模言語モデルは継続事前学習中に概念をどのように学習するのか?
How Do Large Language Models Learn Concepts During Continual Pre-Training?
January 7, 2026
著者: Barry Menglong Yao, Sha Li, Yunzhi Yao, Minqian Liu, Zaishuo Xia, Qifan Wang, Lifu Huang
cs.AI
要旨
人間は主に概念(例:犬)を通じて世界を理解する。概念は知覚・推論・学習を構造化する抽象的な心的表象である。しかし、大規模言語モデル(LLM)が継続事前学習中にこのような概念をどのように獲得し、保持し、忘れていくかは十分に解明されていない。本研究では、個々の概念の獲得と忘却のプロセス、および複数の概念が干渉と相乗効果を通じてどのように相互作用するかを検討する。これらの行動ダイナミクスをLLM内部の「概念回路」、すなわち特定の概念に関連する計算サブグラフと結びつけ、グラフ指標を導入して回路構造を特徴付ける。分析により以下が明らかになった:(1)LLMの概念回路は概念の学習と忘却において統計的に有意な信号を提供する;(2)概念回路は継続事前学習中、初期増加、漸減、安定化という段階的時間パターンを示す;(3)学習獲得量が大きい概念ほど、その後の訓練での忘却も大きくなる傾向がある;(4)意味的に類似した概念は弱く関連する概念よりも強い干渉を引き起こす;(5)概念的知識の転移可能性には差異があり、ある概念が他の概念の学習を大幅に促進する場合がある。総じて、本研究は概念学習のダイナミクスを回路レベルで可視化し、LLMのための解釈性が高く頑健な概念認識型訓練戦略の設計に示唆を与えるものである。
English
Human beings primarily understand the world through concepts (e.g., dog), abstract mental representations that structure perception, reasoning, and learning. However, how large language models (LLMs) acquire, retain, and forget such concepts during continual pretraining remains poorly understood. In this work, we study how individual concepts are acquired and forgotten, as well as how multiple concepts interact through interference and synergy. We link these behavioral dynamics to LLMs' internal Concept Circuits, computational subgraphs associated with specific concepts, and incorporate Graph Metrics to characterize circuit structure. Our analysis reveals: (1) LLMs concept circuits provide a non-trivial, statistically significant signal of concept learning and forgetting; (2) Concept circuits exhibit a stage-wise temporal pattern during continual pretraining, with an early increase followed by gradual decrease and stabilization; (3) concepts with larger learning gains tend to exhibit greater forgetting under subsequent training; (4) semantically similar concepts induce stronger interference than weakly related ones; (5) conceptual knowledge differs in their transferability, with some significantly facilitating the learning of others. Together, our findings offer a circuit-level view of concept learning dynamics and inform the design of more interpretable and robust concept-aware training strategies for LLMs.