ChatPaper.aiChatPaper

Uma História de Caudas: Colapso do Modelo como uma Mudança nas Leis de Escala

A Tale of Tails: Model Collapse as a Change of Scaling Laws

February 10, 2024
Autores: Elvis Dohmatob, Yunzhen Feng, Pu Yang, Francois Charton, Julia Kempe
cs.AI

Resumo

À medida que o tamanho dos modelos de IA cresce, as leis de escalonamento neural tornaram-se uma ferramenta crucial para prever as melhorias dos modelos grandes ao aumentar a capacidade e o tamanho dos dados de treinamento originais (humanos ou naturais). No entanto, o uso generalizado de modelos populares significa que o ecossistema de dados e textos online co-evoluirá para conter progressivamente quantidades crescentes de dados sintetizados. Neste artigo, perguntamos: Como as leis de escalonamento mudarão no regime inevitável em que os dados sintéticos fazem parte do corpus de treinamento? Os modelos futuros ainda melhorarão ou estarão condenados a degenerar até o colapso total (do modelo)? Desenvolvemos uma estrutura teórica de colapso do modelo através da lente das leis de escalonamento. Descobrimos uma ampla gama de fenômenos de decaimento, analisando a perda de escalonamento, o escalonamento deslocado com o número de gerações, o "desaprendizado" de habilidades e o "grokking" ao misturar dados humanos e sintetizados. Nossa teoria é validada por experimentos em larga escala com um transformer em uma tarefa aritmética e geração de texto usando o modelo de linguagem grande Llama2.
English
As AI model size grows, neural scaling laws have become a crucial tool to predict the improvements of large models when increasing capacity and the size of original (human or natural) training data. Yet, the widespread use of popular models means that the ecosystem of online data and text will co-evolve to progressively contain increased amounts of synthesized data. In this paper we ask: How will the scaling laws change in the inevitable regime where synthetic data makes its way into the training corpus? Will future models, still improve, or be doomed to degenerate up to total (model) collapse? We develop a theoretical framework of model collapse through the lens of scaling laws. We discover a wide range of decay phenomena, analyzing loss of scaling, shifted scaling with number of generations, the ''un-learning" of skills, and grokking when mixing human and synthesized data. Our theory is validated by large-scale experiments with a transformer on an arithmetic task and text generation using the large language model Llama2.
PDF161December 15, 2024