ChatPaper.aiChatPaper

Análisis y mejora de la dinámica de entrenamiento en modelos de difusión

Analyzing and Improving the Training Dynamics of Diffusion Models

December 5, 2023
Autores: Tero Karras, Miika Aittala, Jaakko Lehtinen, Janne Hellsten, Timo Aila, Samuli Laine
cs.AI

Resumen

Los modelos de difusión actualmente dominan el campo de la síntesis de imágenes basada en datos gracias a su escalabilidad sin precedentes en grandes conjuntos de datos. En este artículo, identificamos y corregimos varias causas de un entrenamiento irregular e ineficaz en la popular arquitectura de modelo de difusión ADM, sin alterar su estructura de alto nivel. Al observar cambios descontrolados en la magnitud y desequilibrios tanto en las activaciones como en los pesos de la red durante el entrenamiento, rediseñamos las capas de la red para preservar, en promedio, las magnitudes de las activaciones, los pesos y las actualizaciones. Descubrimos que la aplicación sistemática de este enfoque elimina las derivas y desequilibrios observados, lo que resulta en redes considerablemente mejores con la misma complejidad computacional. Nuestras modificaciones mejoran el récord anterior de FID de 2.41 en la síntesis de ImageNet-512 a 1.81, logrado mediante muestreo determinista rápido. Como contribución independiente, presentamos un método para configurar los parámetros del promedio móvil exponencial (EMA) a posteriori, es decir, después de completar la ejecución del entrenamiento. Esto permite un ajuste preciso de la longitud del EMA sin el costo de realizar varias ejecuciones de entrenamiento, y revela sus sorprendentes interacciones con la arquitectura de la red, el tiempo de entrenamiento y la guía.
English
Diffusion models currently dominate the field of data-driven image synthesis with their unparalleled scaling to large datasets. In this paper, we identify and rectify several causes for uneven and ineffective training in the popular ADM diffusion model architecture, without altering its high-level structure. Observing uncontrolled magnitude changes and imbalances in both the network activations and weights over the course of training, we redesign the network layers to preserve activation, weight, and update magnitudes on expectation. We find that systematic application of this philosophy eliminates the observed drifts and imbalances, resulting in considerably better networks at equal computational complexity. Our modifications improve the previous record FID of 2.41 in ImageNet-512 synthesis to 1.81, achieved using fast deterministic sampling. As an independent contribution, we present a method for setting the exponential moving average (EMA) parameters post-hoc, i.e., after completing the training run. This allows precise tuning of EMA length without the cost of performing several training runs, and reveals its surprising interactions with network architecture, training time, and guidance.
PDF342December 15, 2024