대규모 언어 모델은 사전 학습 과정에서 어떻게 사실적 지식을 습득하는가?
How Do Large Language Models Acquire Factual Knowledge During Pretraining?
June 17, 2024
저자: Hoyeon Chang, Jinho Park, Seonghyeon Ye, Sohee Yang, Youngkyung Seo, Du-Seong Chang, Minjoon Seo
cs.AI
초록
최근 대규모 언어 모델(LLM)이 상당한 사실 지식을 저장할 수 있다는 관찰이 있었음에도 불구하고, 사전 학습을 통해 이러한 모델이 어떻게 사실 지식을 습득하는지에 대한 메커니즘은 제한적으로 이해되고 있습니다. 본 연구는 사전 학습 과정에서 LLM이 어떻게 사실 지식을 습득하는지를 연구함으로써 이러한 격차를 해소하고자 합니다. 연구 결과는 사전 학습 중 사실 지식 습득의 역동성에 대한 몇 가지 중요한 통찰을 제공합니다. 첫째, 직관과는 달리 더 많은 데이터로 사전 학습을 진행하더라도 모델의 사실 지식 습득 및 유지 능력이 크게 개선되지 않는 것으로 관찰되었습니다. 둘째, 학습 단계와 기억 및 사실 지식 일반화의 망각 사이에는 멱함수 관계가 존재하며, 중복된 학습 데이터로 훈련된 LLM은 더 빠르게 망각하는 경향을 보입니다. 셋째, 더 큰 배치 크기로 LLM을 훈련시키면 모델의 망각에 대한 견고성이 향상될 수 있습니다. 전반적으로, 우리의 관찰은 LLM 사전 학습에서의 사실 지식 습득이 사전 학습 데이터에 제시된 사실 지식의 확률을 단계적으로 증가시키는 방식으로 이루어지지만, 이 증가는 이후의 망각에 의해 희석된다는 것을 시사합니다. 이러한 해석을 바탕으로, 우리는 LLM의 최근 관찰된 행동들, 예를 들어 장기간 꼬리 지식(long-tail knowledge)에 대한 LLM의 낮은 성능과 사전 학습 코퍼스의 중복 제거의 이점 등에 대해 타당한 설명을 제공할 수 있음을 보여줍니다.
English
Despite the recent observation that large language models (LLMs) can store
substantial factual knowledge, there is a limited understanding of the
mechanisms of how they acquire factual knowledge through pretraining. This work
addresses this gap by studying how LLMs acquire factual knowledge during
pretraining. The findings reveal several important insights into the dynamics
of factual knowledge acquisition during pretraining. First, counterintuitively,
we observe that pretraining on more data shows no significant improvement in
the model's capability to acquire and maintain factual knowledge. Next, there
is a power-law relationship between training steps and forgetting of
memorization and generalization of factual knowledge, and LLMs trained with
duplicated training data exhibit faster forgetting. Third, training LLMs with
larger batch sizes can enhance the models' robustness to forgetting. Overall,
our observations suggest that factual knowledge acquisition in LLM pretraining
occurs by progressively increasing the probability of factual knowledge
presented in the pretraining data at each step. However, this increase is
diluted by subsequent forgetting. Based on this interpretation, we demonstrate
that we can provide plausible explanations for recently observed behaviors of
LLMs, such as the poor performance of LLMs on long-tail knowledge and the
benefits of deduplicating the pretraining corpus.Summary
AI-Generated Summary