ChatPaper.aiChatPaper

テールの物語:スケーリング則の変化としてのモデル崩壊

A Tale of Tails: Model Collapse as a Change of Scaling Laws

February 10, 2024
著者: Elvis Dohmatob, Yunzhen Feng, Pu Yang, Francois Charton, Julia Kempe
cs.AI

要旨

AIモデルのサイズが大きくなるにつれ、ニューラルスケーリング則は、大規模モデルの能力と元の(人間または自然の)トレーニングデータのサイズを増加させた際の改善を予測するための重要なツールとなっています。しかし、人気モデルの広範な使用により、オンラインデータやテキストのエコシステムは、合成データの量が徐々に増加するように共進化していくでしょう。本論文では、合成データがトレーニングコーパスに混入する不可避の状況において、スケーリング則がどのように変化するかを問います。将来のモデルは、依然として改善されるのか、それとも完全な(モデルの)崩壊に至る運命にあるのか?私たちは、スケーリング則の視点からモデル崩壊の理論的フレームワークを構築します。スケーリングの喪失、世代数によるスケーリングのシフト、スキルの「アンラーニング」、そして人間データと合成データを混合した際の「グロッキング」といった幅広い衰退現象を分析します。私たちの理論は、算術タスクにおけるトランスフォーマーと大規模言語モデルLlama2を用いたテキスト生成の大規模実験によって検証されています。
English
As AI model size grows, neural scaling laws have become a crucial tool to predict the improvements of large models when increasing capacity and the size of original (human or natural) training data. Yet, the widespread use of popular models means that the ecosystem of online data and text will co-evolve to progressively contain increased amounts of synthesized data. In this paper we ask: How will the scaling laws change in the inevitable regime where synthetic data makes its way into the training corpus? Will future models, still improve, or be doomed to degenerate up to total (model) collapse? We develop a theoretical framework of model collapse through the lens of scaling laws. We discover a wide range of decay phenomena, analyzing loss of scaling, shifted scaling with number of generations, the ''un-learning" of skills, and grokking when mixing human and synthesized data. Our theory is validated by large-scale experiments with a transformer on an arithmetic task and text generation using the large language model Llama2.
PDF161December 15, 2024