История о хвостах: коллапс модели как изменение законов масштабирования
A Tale of Tails: Model Collapse as a Change of Scaling Laws
February 10, 2024
Авторы: Elvis Dohmatob, Yunzhen Feng, Pu Yang, Francois Charton, Julia Kempe
cs.AI
Аннотация
По мере увеличения размеров моделей ИИ, законы масштабирования нейронных сетей стали важным инструментом для прогнозирования улучшений крупных моделей при увеличении их мощности и объема исходных (человеческих или естественных) обучающих данных. Однако широкое использование популярных моделей означает, что экосистема онлайн-данных и текстов будет эволюционировать, постепенно включая всё больше синтезированных данных. В данной статье мы задаемся вопросом: как изменятся законы масштабирования в неизбежном режиме, когда синтетические данные начнут попадать в обучающий корпус? Будут ли будущие модели продолжать улучшаться или обречены на деградацию вплоть до полного (модельного) коллапса? Мы разрабатываем теоретическую основу для изучения модельного коллапса через призму законов масштабирования. Мы обнаруживаем широкий спектр явлений ухудшения, анализируя потерю масштабируемости, смещение масштабирования с увеличением числа поколений, «разучивание» навыков и феномен «гроккинга» при смешении человеческих и синтезированных данных. Наша теория подтверждается крупномасштабными экспериментами с трансформером на арифметической задаче и генерацией текста с использованием крупной языковой модели Llama2.
English
As AI model size grows, neural scaling laws have become a crucial tool to
predict the improvements of large models when increasing capacity and the size
of original (human or natural) training data. Yet, the widespread use of
popular models means that the ecosystem of online data and text will co-evolve
to progressively contain increased amounts of synthesized data. In this paper
we ask: How will the scaling laws change in the inevitable regime where
synthetic data makes its way into the training corpus? Will future models,
still improve, or be doomed to degenerate up to total (model) collapse? We
develop a theoretical framework of model collapse through the lens of scaling
laws. We discover a wide range of decay phenomena, analyzing loss of scaling,
shifted scaling with number of generations, the ''un-learning" of skills, and
grokking when mixing human and synthesized data. Our theory is validated by
large-scale experiments with a transformer on an arithmetic task and text
generation using the large language model Llama2.