Distillation Améliorée de l'Appariement de Distribution pour la Synthèse Rapide d'Images

papers.abstract

Les approches récentes ont montré des promesses dans la distillation de modèles de diffusion en générateurs efficaces en une seule étape. Parmi elles, la Distillation par Correspondance de Distribution (DMD) produit des générateurs en une étape qui correspondent à leur enseignant en termes de distribution, sans imposer une correspondance un-à-un avec les trajectoires d'échantillonnage de leurs enseignants. Cependant, pour assurer un entraînement stable, la DMD nécessite une perte de régression supplémentaire calculée à l'aide d'un grand ensemble de paires bruit-image générées par l'enseignant avec de nombreuses étapes d'un échantillonneur déterministe. Cela est coûteux pour la synthèse d'images à grande échelle à partir de texte et limite la qualité de l'élève, l'enchaînant trop étroitement aux chemins d'échantillonnage originaux de l'enseignant. Nous introduisons DMD2, un ensemble de techniques qui lèvent cette limitation et améliorent l'entraînement de la DMD. Premièrement, nous éliminons la perte de régression et le besoin de construction coûteuse de jeux de données. Nous montrons que l'instabilité résultante est due au fait que le critique artificiel n'estime pas avec précision la distribution des échantillons générés et proposons une règle de mise à jour à deux échelles de temps comme remède. Deuxièmement, nous intégrons une perte GAN dans la procédure de distillation, en discriminant entre les échantillons générés et les images réelles. Cela nous permet d'entraîner le modèle élève sur des données réelles, atténuant l'estimation imparfaite des scores réels du modèle enseignant et améliorant la qualité. Enfin, nous modifions la procédure d'entraînement pour permettre un échantillonnage en plusieurs étapes. Nous identifions et résolvons le problème de discordance des entrées entre l'entraînement et l'inférence dans ce contexte, en simulant les échantillons du générateur au moment de l'inférence pendant l'entraînement. Ensemble, nos améliorations établissent de nouveaux référentiels dans la génération d'images en une étape, avec des scores FID de 1,28 sur ImageNet-64x64 et 8,35 sur COCO 2014 en zéro-shot, surpassant l'enseignant original malgré une réduction de 500X du coût d'inférence. De plus, nous montrons que notre approche peut générer des images en mégapixels en distillant SDXL, démontrant une qualité visuelle exceptionnelle parmi les méthodes à quelques étapes.

English

Recent approaches have shown promises distilling diffusion models into efficient one-step generators. Among them, Distribution Matching Distillation (DMD) produces one-step generators that match their teacher in distribution, without enforcing a one-to-one correspondence with the sampling trajectories of their teachers. However, to ensure stable training, DMD requires an additional regression loss computed using a large set of noise-image pairs generated by the teacher with many steps of a deterministic sampler. This is costly for large-scale text-to-image synthesis and limits the student's quality, tying it too closely to the teacher's original sampling paths. We introduce DMD2, a set of techniques that lift this limitation and improve DMD training. First, we eliminate the regression loss and the need for expensive dataset construction. We show that the resulting instability is due to the fake critic not estimating the distribution of generated samples accurately and propose a two time-scale update rule as a remedy. Second, we integrate a GAN loss into the distillation procedure, discriminating between generated samples and real images. This lets us train the student model on real data, mitigating the imperfect real score estimation from the teacher model, and enhancing quality. Lastly, we modify the training procedure to enable multi-step sampling. We identify and address the training-inference input mismatch problem in this setting, by simulating inference-time generator samples during training time. Taken together, our improvements set new benchmarks in one-step image generation, with FID scores of 1.28 on ImageNet-64x64 and 8.35 on zero-shot COCO 2014, surpassing the original teacher despite a 500X reduction in inference cost. Further, we show our approach can generate megapixel images by distilling SDXL, demonstrating exceptional visual quality among few-step methods.

Distillation Améliorée de l'Appariement de Distribution pour la Synthèse Rapide d'Images

Improved Distribution Matching Distillation for Fast Image Synthesis

papers.abstract

Support