Comment les LLM acquièrent-ils de nouvelles connaissances ? Une perspective des circuits de connaissances sur la pré-formation continue

papers.abstract

Malgré des capacités exceptionnelles dans les tâches intensives en connaissances, les Grands Modèles de Langage (GML) font face à une lacune critique dans la compréhension de la façon dont ils intègrent de nouvelles connaissances, en particulier comment incorporer structurellement les connaissances acquises dans leurs calculs neuronaux. Nous abordons cette question à travers le prisme de l'évolution des circuits de connaissance, en identifiant des sous-graphes computationnels qui facilitent le stockage et le traitement des connaissances. Notre analyse systématique de l'évolution des circuits tout au long de l'apprentissage préalable continu révèle plusieurs conclusions clés : (1) l'acquisition de nouvelles connaissances est influencée par sa pertinence par rapport aux connaissances préexistantes ; (2) l'évolution des circuits de connaissance présente un décalage de phase distinct de la formation à l'optimisation ; (3) l'évolution des circuits de connaissance suit un schéma de profondeur à surface. Ces perspectives permettent non seulement d'avancer notre compréhension théorique des mécanismes d'acquisition de nouvelles connaissances dans les GML, mais offrent également des implications potentielles pour améliorer les stratégies d'apprentissage préalable continu afin d'optimiser les performances du modèle. Le code et les données seront disponibles sur https://github.com/zjunlp/DynamicKnowledgeCircuits.

English

Despite exceptional capabilities in knowledge-intensive tasks, Large Language Models (LLMs) face a critical gap in understanding how they internalize new knowledge, particularly how to structurally embed acquired knowledge in their neural computations. We address this issue through the lens of knowledge circuit evolution, identifying computational subgraphs that facilitate knowledge storage and processing. Our systematic analysis of circuit evolution throughout continual pre-training reveals several key findings: (1) the acquisition of new knowledge is influenced by its relevance to pre-existing knowledge; (2) the evolution of knowledge circuits exhibits a distinct phase shift from formation to optimization; (3) the evolution of knowledge circuits follows a deep-to-shallow pattern. These insights not only advance our theoretical understanding of the mechanisms of new knowledge acquisition in LLMs, but also provide potential implications for improving continual pre-training strategies to enhance model performance. Code and data will be available at https://github.com/zjunlp/DynamicKnowledgeCircuits.

Comment les LLM acquièrent-ils de nouvelles connaissances ? Une perspective des circuits de connaissances sur la pré-formation continue

How Do LLMs Acquire New Knowledge? A Knowledge Circuits Perspective on Continual Pre-Training

papers.abstract

Support