ChatPaper.aiChatPaper

Como os LLMs Adquirem Novos Conhecimentos? Uma Perspectiva de Circuitos de Conhecimento sobre o Pré-Treinamento Contínuo

How Do LLMs Acquire New Knowledge? A Knowledge Circuits Perspective on Continual Pre-Training

February 16, 2025
Autores: Yixin Ou, Yunzhi Yao, Ningyu Zhang, Hui Jin, Jiacheng Sun, Shumin Deng, Zhenguo Li, Huajun Chen
cs.AI

Resumo

Apesar de suas capacidades excepcionais em tarefas que demandam conhecimento, os Modelos de Linguagem de Grande Escala (LLMs) enfrentam uma lacuna crítica na compreensão de como internalizam novos conhecimentos, particularmente em como incorporam estruturalmente o conhecimento adquirido em suas computações neurais. Abordamos essa questão através da lente da evolução de circuitos de conhecimento, identificando subgrafos computacionais que facilitam o armazenamento e o processamento de conhecimento. Nossa análise sistemática da evolução dos circuitos ao longo do pré-treinamento contínuo revela várias descobertas importantes: (1) a aquisição de novos conhecimentos é influenciada por sua relevância em relação ao conhecimento pré-existente; (2) a evolução dos circuitos de conhecimento exibe uma mudança de fase distinta, da formação para a otimização; (3) a evolução dos circuitos de conhecimento segue um padrão de profundo para superficial. Esses insights não apenas avançam nossa compreensão teórica dos mecanismos de aquisição de novos conhecimentos em LLMs, mas também fornecem implicações potenciais para melhorar as estratégias de pré-treinamento contínuo, visando aprimorar o desempenho do modelo. O código e os dados estarão disponíveis em https://github.com/zjunlp/DynamicKnowledgeCircuits.
English
Despite exceptional capabilities in knowledge-intensive tasks, Large Language Models (LLMs) face a critical gap in understanding how they internalize new knowledge, particularly how to structurally embed acquired knowledge in their neural computations. We address this issue through the lens of knowledge circuit evolution, identifying computational subgraphs that facilitate knowledge storage and processing. Our systematic analysis of circuit evolution throughout continual pre-training reveals several key findings: (1) the acquisition of new knowledge is influenced by its relevance to pre-existing knowledge; (2) the evolution of knowledge circuits exhibits a distinct phase shift from formation to optimization; (3) the evolution of knowledge circuits follows a deep-to-shallow pattern. These insights not only advance our theoretical understanding of the mechanisms of new knowledge acquisition in LLMs, but also provide potential implications for improving continual pre-training strategies to enhance model performance. Code and data will be available at https://github.com/zjunlp/DynamicKnowledgeCircuits.

Summary

AI-Generated Summary

PDF226February 18, 2025