Verbesserung der diffusionsbasierten Bildsynthese durch Kontextvorhersage
Improving Diffusion-Based Image Synthesis with Context Prediction
January 4, 2024
Autoren: Ling Yang, Jingwei Liu, Shenda Hong, Zhilong Zhang, Zhilin Huang, Zheming Cai, Wentao Zhang, Bin Cui
cs.AI
Zusammenfassung
Diffusionsmodelle stellen eine neue Klasse von generativen Modellen dar und haben die Bildgenerierung mit beispielloser Qualität und Vielfalt deutlich vorangetrieben. Bisherige Diffusionsmodelle versuchen hauptsächlich, ein Eingabebild aus einem beschädigten Bild unter Verwendung von pixel- oder feature-basierten Einschränkungen entlang der räumlichen Achsen zu rekonstruieren. Eine solche punktbasierte Rekonstruktion kann jedoch dazu führen, dass jeder vorhergesagte Pixel/Feature seinen umgebenden Kontext nicht vollständig bewahrt, was die diffusionsbasierte Bildsynthese beeinträchtigt. Als mächtige Quelle für automatische Überwachungssignale wurde Kontext bereits umfassend für das Lernen von Repräsentationen untersucht. Inspiriert davon schlagen wir erstmals ConPreDiff vor, um die diffusionsbasierte Bildsynthese durch Kontextvorhersage zu verbessern. Wir verstärken explizit jeden Punkt, um seinen umgebenden Kontext (d.h. mehrstufige Features/Tokens/Pixel) mit einem Kontext-Decoder am Ende der Diffusions-Entrauschungsblöcke während der Trainingsphase vorherzusagen, und entfernen den Decoder für die Inferenz. Auf diese Weise kann jeder Punkt sich selbst besser rekonstruieren, indem er seine semantischen Verbindungen mit dem umgebenden Kontext bewahrt. Dieses neue Paradigma von ConPreDiff kann auf beliebige diskrete und kontinuierliche Diffusions-Backbones verallgemeinert werden, ohne zusätzliche Parameter im Sampling-Prozess einzuführen. Umfangreiche Experimente wurden für die unbedingte Bildgenerierung, Text-zu-Bild-Generierung und Bildinpainting-Aufgaben durchgeführt. Unser ConPreDiff übertrifft durchweg frühere Methoden und erreicht neue State-of-the-Art-Ergebnisse bei der Text-zu-Bild-Generierung auf MS-COCO mit einem Zero-Shot-FID-Score von 6,21.
English
Diffusion models are a new class of generative models, and have dramatically
promoted image generation with unprecedented quality and diversity. Existing
diffusion models mainly try to reconstruct input image from a corrupted one
with a pixel-wise or feature-wise constraint along spatial axes. However, such
point-based reconstruction may fail to make each predicted pixel/feature fully
preserve its neighborhood context, impairing diffusion-based image synthesis.
As a powerful source of automatic supervisory signal, context has been well
studied for learning representations. Inspired by this, we for the first time
propose ConPreDiff to improve diffusion-based image synthesis with context
prediction. We explicitly reinforce each point to predict its neighborhood
context (i.e., multi-stride features/tokens/pixels) with a context decoder at
the end of diffusion denoising blocks in training stage, and remove the decoder
for inference. In this way, each point can better reconstruct itself by
preserving its semantic connections with neighborhood context. This new
paradigm of ConPreDiff can generalize to arbitrary discrete and continuous
diffusion backbones without introducing extra parameters in sampling procedure.
Extensive experiments are conducted on unconditional image generation,
text-to-image generation and image inpainting tasks. Our ConPreDiff
consistently outperforms previous methods and achieves a new SOTA text-to-image
generation results on MS-COCO, with a zero-shot FID score of 6.21.