モデル認知症:生成データがモデルを忘却させる
Model Dementia: Generated Data Makes Models Forget
May 27, 2023
著者: Ilia Shumailov, Zakhar Shumaylov, Yiren Zhao, Yarin Gal, Nicolas Papernot, Ross Anderson
cs.AI
要旨
Stable Diffusionは記述的なテキストからの画像生成に革命をもたらしました。GPT-2、GPT-3(.5)、そしてGPT-4は、さまざまな言語タスクで驚異的な性能を発揮しました。ChatGPTは、そのような言語モデルを一般大衆に紹介しました。現在、大規模言語モデル(LLM)が定着し、オンライン上のテキストと画像のエコシステム全体に劇的な変化をもたらすことは明らかです。本論文では、未来がどのようなものになるかを考察します。LLMがオンライン上の言語の大部分を担うようになったとき、GPT-{n}に何が起こるでしょうか?私たちは、モデル生成コンテンツをトレーニングに使用することが、結果として得られるモデルに不可逆的な欠陥を引き起こすことを発見しました。この欠陥は、元のコンテンツ分布の裾が消失するというものです。私たちはこの効果を「モデル認知症」と呼び、それが変分オートエンコーダー(VAE)、ガウス混合モデル(GMM)、そしてLLMで発生することを示します。この現象の背後にある理論的な直感を構築し、すべての学習済み生成モデルに普遍的に存在することを描き出します。私たちは、ウェブからスクレイピングされた大規模データからのトレーニングの利点を維持するためには、この現象を真剣に受け止める必要があることを示します。実際、LLMによって生成されたコンテンツがインターネットからクロールされたデータに存在する中で、システムとの真の人間の相互作用に関するデータの価値はますます高まるでしょう。
English
Stable Diffusion revolutionised image creation from descriptive text. GPT-2,
GPT-3(.5) and GPT-4 demonstrated astonishing performance across a variety of
language tasks. ChatGPT introduced such language models to the general public.
It is now clear that large language models (LLMs) are here to stay, and will
bring about drastic change in the whole ecosystem of online text and images. In
this paper we consider what the future might hold. What will happen to GPT-{n}
once LLMs contribute much of the language found online? We find that use of
model-generated content in training causes irreversible defects in the
resulting models, where tails of the original content distribution disappear.
We call this effect model dementia and show that it can occur in Variational
Autoencoders (VAEs), Gaussian Mixture Models (GMMs) and LLMs. We build
theoretical intuition behind the phenomenon and portray its ubiquity amongst
all learned generative models. We demonstrate that it has to be taken seriously
if we are to sustain the benefits of training from large-scale data scraped
from the web. Indeed, the value of data collected about genuine human
interactions with systems will be increasingly valuable in the presence of
content generated by LLMs in data crawled from the Internet.