Analyse et amélioration des dynamiques d'entraînement des modèles de diffusion
Analyzing and Improving the Training Dynamics of Diffusion Models
December 5, 2023
Auteurs: Tero Karras, Miika Aittala, Jaakko Lehtinen, Janne Hellsten, Timo Aila, Samuli Laine
cs.AI
Résumé
Les modèles de diffusion dominent actuellement le domaine de la synthèse d'images basée sur les données grâce à leur capacité inégalée à s'adapter à de grands ensembles de données. Dans cet article, nous identifions et corrigeons plusieurs causes d'entraînement inégal et inefficace dans l'architecture populaire du modèle de diffusion ADM, sans modifier sa structure de haut niveau. En observant des changements de magnitude non contrôlés et des déséquilibres dans les activations et les poids du réseau au cours de l'entraînement, nous redéfinissons les couches du réseau pour préserver les magnitudes des activations, des poids et des mises à jour en moyenne. Nous constatons que l'application systématique de cette philosophie élimine les dérives et déséquilibres observés, aboutissant à des réseaux considérablement meilleurs pour une complexité computationnelle équivalente. Nos modifications améliorent le précédent record FID de 2,41 pour la synthèse d'ImageNet-512 à 1,81, atteint en utilisant un échantillonnage déterministe rapide.
En tant que contribution indépendante, nous présentons une méthode pour définir les paramètres de la moyenne mobile exponentielle (EMA) a posteriori, c'est-à-dire après avoir terminé l'exécution de l'entraînement. Cela permet un réglage précis de la longueur de l'EMA sans le coût d'effectuer plusieurs exécutions d'entraînement, et révèle ses interactions surprenantes avec l'architecture du réseau, la durée d'entraînement et le guidage.
English
Diffusion models currently dominate the field of data-driven image synthesis
with their unparalleled scaling to large datasets. In this paper, we identify
and rectify several causes for uneven and ineffective training in the popular
ADM diffusion model architecture, without altering its high-level structure.
Observing uncontrolled magnitude changes and imbalances in both the network
activations and weights over the course of training, we redesign the network
layers to preserve activation, weight, and update magnitudes on expectation. We
find that systematic application of this philosophy eliminates the observed
drifts and imbalances, resulting in considerably better networks at equal
computational complexity. Our modifications improve the previous record FID of
2.41 in ImageNet-512 synthesis to 1.81, achieved using fast deterministic
sampling.
As an independent contribution, we present a method for setting the
exponential moving average (EMA) parameters post-hoc, i.e., after completing
the training run. This allows precise tuning of EMA length without the cost of
performing several training runs, and reveals its surprising interactions with
network architecture, training time, and guidance.