꼬리의 이야기: 스케일링 법칙의 변화로서의 모델 붕괴
A Tale of Tails: Model Collapse as a Change of Scaling Laws
February 10, 2024
저자: Elvis Dohmatob, Yunzhen Feng, Pu Yang, Francois Charton, Julia Kempe
cs.AI
초록
AI 모델 크기가 증가함에 따라, 신경망 스케일링 법칙은 모델의 용량과 원본(인간 또는 자연) 훈련 데이터의 크기를 증가시킬 때 대형 모델의 성능 향상을 예측하는 데 중요한 도구가 되었습니다. 그러나 널리 사용되는 모델의 보편화로 인해 온라인 데이터와 텍스트의 생태계는 점점 더 많은 합성 데이터를 포함하도록 공진화할 것입니다. 본 논문에서 우리는 다음과 같은 질문을 던집니다: 합성 데이터가 훈련 코퍼스에 포함되는 불가피한 상황에서 스케일링 법칙은 어떻게 변화할 것인가? 미래의 모델들은 여전히 개선될 것인가, 아니면 완전한 (모델) 붕괴에 이르기까지 퇴보할 것인가? 우리는 스케일링 법칙의 관점에서 모델 붕괴에 대한 이론적 프레임워크를 개발합니다. 우리는 스케일링의 상실, 세대 수에 따른 스케일링 이동, 기술의 "언러닝(un-learning)", 그리고 인간 데이터와 합성 데이터를 혼합할 때 발생하는 그로킹(grokking) 현상 등 다양한 붕괴 현상을 분석합니다. 우리의 이론은 산술 작업에서의 트랜스포머와 대형 언어 모델 Llama2를 사용한 텍스트 생성에 대한 대규모 실험을 통해 검증되었습니다.
English
As AI model size grows, neural scaling laws have become a crucial tool to
predict the improvements of large models when increasing capacity and the size
of original (human or natural) training data. Yet, the widespread use of
popular models means that the ecosystem of online data and text will co-evolve
to progressively contain increased amounts of synthesized data. In this paper
we ask: How will the scaling laws change in the inevitable regime where
synthetic data makes its way into the training corpus? Will future models,
still improve, or be doomed to degenerate up to total (model) collapse? We
develop a theoretical framework of model collapse through the lens of scaling
laws. We discover a wide range of decay phenomena, analyzing loss of scaling,
shifted scaling with number of generations, the ''un-learning" of skills, and
grokking when mixing human and synthesized data. Our theory is validated by
large-scale experiments with a transformer on an arithmetic task and text
generation using the large language model Llama2.