모델 치매: 생성된 데이터가 모델을 망각하게 만든다
Model Dementia: Generated Data Makes Models Forget
May 27, 2023
저자: Ilia Shumailov, Zakhar Shumaylov, Yiren Zhao, Yarin Gal, Nicolas Papernot, Ross Anderson
cs.AI
초록
Stable Diffusion은 기술적 텍스트로부터 이미지 생성을 혁신적으로 변화시켰다. GPT-2, GPT-3(.5), 그리고 GPT-4는 다양한 언어 작업에서 놀라운 성능을 보여주었다. ChatGPT는 이러한 언어 모델을 대중에게 소개했다. 이제 대규모 언어 모델(LLMs)이 계속해서 존재하며 온라인 텍스트와 이미지의 전체 생태계에 급격한 변화를 가져올 것임이 명확해졌다. 본 논문에서는 미래에 어떤 일이 일어날지 고려한다. LLMs가 온라인에서 발견되는 언어의 상당 부분을 기여하게 되면 GPT-{n}에 어떤 일이 일어날까? 우리는 모델 생성 콘텐츠를 훈련에 사용할 경우 결과 모델에 돌이킬 수 없는 결함이 발생하며, 원본 콘텐츠 분포의 꼬리가 사라지는 현상을 발견했다. 우리는 이러한 현상을 모델 치매(model dementia)라고 부르며, 이 현상이 변분 자동인코더(VAEs), 가우시안 혼합 모델(GMMs), 그리고 LLMs에서 발생할 수 있음을 보여준다. 우리는 이 현상에 대한 이론적 직관을 구축하고 모든 학습된 생성 모델에서 이 현상이 보편적으로 나타남을 설명한다. 우리는 웹에서 수집된 대규모 데이터로부터 훈련의 이점을 지속하려면 이 현상을 심각하게 받아들여야 함을 입증한다. 실제로, LLMs에 의해 생성된 콘텐츠가 인터넷에서 크롤링된 데이터에 존재할 때, 시스템과의 진정한 인간 상호작용에 대해 수집된 데이터의 가치는 점점 더 중요해질 것이다.
English
Stable Diffusion revolutionised image creation from descriptive text. GPT-2,
GPT-3(.5) and GPT-4 demonstrated astonishing performance across a variety of
language tasks. ChatGPT introduced such language models to the general public.
It is now clear that large language models (LLMs) are here to stay, and will
bring about drastic change in the whole ecosystem of online text and images. In
this paper we consider what the future might hold. What will happen to GPT-{n}
once LLMs contribute much of the language found online? We find that use of
model-generated content in training causes irreversible defects in the
resulting models, where tails of the original content distribution disappear.
We call this effect model dementia and show that it can occur in Variational
Autoencoders (VAEs), Gaussian Mixture Models (GMMs) and LLMs. We build
theoretical intuition behind the phenomenon and portray its ubiquity amongst
all learned generative models. We demonstrate that it has to be taken seriously
if we are to sustain the benefits of training from large-scale data scraped
from the web. Indeed, the value of data collected about genuine human
interactions with systems will be increasingly valuable in the presence of
content generated by LLMs in data crawled from the Internet.