Un relato sobre las colas: El colapso del modelo como un cambio en las leyes de escalamiento
A Tale of Tails: Model Collapse as a Change of Scaling Laws
February 10, 2024
Autores: Elvis Dohmatob, Yunzhen Feng, Pu Yang, Francois Charton, Julia Kempe
cs.AI
Resumen
A medida que aumenta el tamaño de los modelos de IA, las leyes de escalamiento neuronal se han convertido en una herramienta crucial para predecir las mejoras de los modelos grandes al incrementar su capacidad y el tamaño de los datos de entrenamiento originales (humanos o naturales). Sin embargo, el uso generalizado de modelos populares implica que el ecosistema de datos y texto en línea coevolucionará para contener progresivamente mayores cantidades de datos sintetizados. En este artículo nos preguntamos: ¿Cómo cambiarán las leyes de escalamiento en el régimen inevitable donde los datos sintéticos se incorporan al corpus de entrenamiento? ¿Seguirán mejorando los modelos futuros o estarán condenados a degenerarse hasta alcanzar un colapso total (del modelo)? Desarrollamos un marco teórico del colapso del modelo a través de la lente de las leyes de escalamiento. Descubrimos una amplia gama de fenómenos de deterioro, analizando la pérdida de escalamiento, el escalamiento desplazado con el número de generaciones, el "desaprendizaje" de habilidades y el fenómeno de "grokking" al mezclar datos humanos y sintetizados. Nuestra teoría se valida mediante experimentos a gran escala con un transformador en una tarea aritmética y en la generación de texto utilizando el modelo de lenguaje grande Llama2.
English
As AI model size grows, neural scaling laws have become a crucial tool to
predict the improvements of large models when increasing capacity and the size
of original (human or natural) training data. Yet, the widespread use of
popular models means that the ecosystem of online data and text will co-evolve
to progressively contain increased amounts of synthesized data. In this paper
we ask: How will the scaling laws change in the inevitable regime where
synthetic data makes its way into the training corpus? Will future models,
still improve, or be doomed to degenerate up to total (model) collapse? We
develop a theoretical framework of model collapse through the lens of scaling
laws. We discover a wide range of decay phenomena, analyzing loss of scaling,
shifted scaling with number of generations, the ''un-learning" of skills, and
grokking when mixing human and synthesized data. Our theory is validated by
large-scale experiments with a transformer on an arithmetic task and text
generation using the large language model Llama2.