Comment les LLM acquièrent-ils de nouvelles connaissances ? Une perspective des circuits de connaissances sur la pré-formation continue
How Do LLMs Acquire New Knowledge? A Knowledge Circuits Perspective on Continual Pre-Training
February 16, 2025
Auteurs: Yixin Ou, Yunzhi Yao, Ningyu Zhang, Hui Jin, Jiacheng Sun, Shumin Deng, Zhenguo Li, Huajun Chen
cs.AI
Résumé
Malgré des capacités exceptionnelles dans les tâches intensives en connaissances, les Grands Modèles de Langage (GML) font face à une lacune critique dans la compréhension de la façon dont ils intègrent de nouvelles connaissances, en particulier comment incorporer structurellement les connaissances acquises dans leurs calculs neuronaux. Nous abordons cette question à travers le prisme de l'évolution des circuits de connaissance, en identifiant des sous-graphes computationnels qui facilitent le stockage et le traitement des connaissances. Notre analyse systématique de l'évolution des circuits tout au long de l'apprentissage préalable continu révèle plusieurs conclusions clés : (1) l'acquisition de nouvelles connaissances est influencée par sa pertinence par rapport aux connaissances préexistantes ; (2) l'évolution des circuits de connaissance présente un décalage de phase distinct de la formation à l'optimisation ; (3) l'évolution des circuits de connaissance suit un schéma de profondeur à surface. Ces perspectives permettent non seulement d'avancer notre compréhension théorique des mécanismes d'acquisition de nouvelles connaissances dans les GML, mais offrent également des implications potentielles pour améliorer les stratégies d'apprentissage préalable continu afin d'optimiser les performances du modèle. Le code et les données seront disponibles sur https://github.com/zjunlp/DynamicKnowledgeCircuits.
English
Despite exceptional capabilities in knowledge-intensive tasks, Large Language
Models (LLMs) face a critical gap in understanding how they internalize new
knowledge, particularly how to structurally embed acquired knowledge in their
neural computations. We address this issue through the lens of knowledge
circuit evolution, identifying computational subgraphs that facilitate
knowledge storage and processing. Our systematic analysis of circuit evolution
throughout continual pre-training reveals several key findings: (1) the
acquisition of new knowledge is influenced by its relevance to pre-existing
knowledge; (2) the evolution of knowledge circuits exhibits a distinct phase
shift from formation to optimization; (3) the evolution of knowledge circuits
follows a deep-to-shallow pattern. These insights not only advance our
theoretical understanding of the mechanisms of new knowledge acquisition in
LLMs, but also provide potential implications for improving continual
pre-training strategies to enhance model performance. Code and data will be
available at https://github.com/zjunlp/DynamicKnowledgeCircuits.Summary
AI-Generated Summary