Amélioration de la synthèse d'images basée sur la diffusion par prédiction contextuelle
Improving Diffusion-Based Image Synthesis with Context Prediction
January 4, 2024
Auteurs: Ling Yang, Jingwei Liu, Shenda Hong, Zhilong Zhang, Zhilin Huang, Zheming Cai, Wentao Zhang, Bin Cui
cs.AI
Résumé
Les modèles de diffusion constituent une nouvelle classe de modèles génératifs et ont considérablement amélioré la génération d'images avec une qualité et une diversité sans précédent. Les modèles de diffusion existants tentent principalement de reconstruire une image d'entrée à partir d'une version corrompue en utilisant une contrainte pixel par pixel ou basée sur les caractéristiques le long des axes spatiaux. Cependant, une telle reconstruction basée sur des points peut échouer à préserver pleinement le contexte local de chaque pixel/caractéristique prédit, ce qui nuit à la synthèse d'images basée sur la diffusion. En tant que source puissante de signal de supervision automatique, le contexte a été largement étudié pour l'apprentissage de représentations. Inspirés par cela, nous proposons pour la première fois ConPreDiff pour améliorer la synthèse d'images basée sur la diffusion grâce à la prédiction de contexte. Nous renforçons explicitement chaque point pour prédire son contexte local (c'est-à-dire des caractéristiques/jetons/pixels à pas multiples) à l'aide d'un décodeur de contexte à la fin des blocs de débruitage de diffusion lors de la phase d'entraînement, et supprimons ce décodeur lors de l'inférence. De cette manière, chaque point peut mieux se reconstruire en préservant ses connexions sémantiques avec le contexte local. Ce nouveau paradigme de ConPreDiff peut être généralisé à des architectures de diffusion discrètes et continues sans introduire de paramètres supplémentaires lors de la procédure d'échantillonnage. Des expériences approfondies sont menées sur des tâches de génération d'images non conditionnée, de génération d'images à partir de texte et de réparation d'images. Notre ConPreDiff surpasse systématiquement les méthodes précédentes et établit un nouveau record en génération d'images à partir de texte sur MS-COCO, avec un score FID en zero-shot de 6,21.
English
Diffusion models are a new class of generative models, and have dramatically
promoted image generation with unprecedented quality and diversity. Existing
diffusion models mainly try to reconstruct input image from a corrupted one
with a pixel-wise or feature-wise constraint along spatial axes. However, such
point-based reconstruction may fail to make each predicted pixel/feature fully
preserve its neighborhood context, impairing diffusion-based image synthesis.
As a powerful source of automatic supervisory signal, context has been well
studied for learning representations. Inspired by this, we for the first time
propose ConPreDiff to improve diffusion-based image synthesis with context
prediction. We explicitly reinforce each point to predict its neighborhood
context (i.e., multi-stride features/tokens/pixels) with a context decoder at
the end of diffusion denoising blocks in training stage, and remove the decoder
for inference. In this way, each point can better reconstruct itself by
preserving its semantic connections with neighborhood context. This new
paradigm of ConPreDiff can generalize to arbitrary discrete and continuous
diffusion backbones without introducing extra parameters in sampling procedure.
Extensive experiments are conducted on unconditional image generation,
text-to-image generation and image inpainting tasks. Our ConPreDiff
consistently outperforms previous methods and achieves a new SOTA text-to-image
generation results on MS-COCO, with a zero-shot FID score of 6.21.