Verbetering van op diffusie gebaseerde beeldgeneratie met contextvoorspelling
Improving Diffusion-Based Image Synthesis with Context Prediction
January 4, 2024
Auteurs: Ling Yang, Jingwei Liu, Shenda Hong, Zhilong Zhang, Zhilin Huang, Zheming Cai, Wentao Zhang, Bin Cui
cs.AI
Samenvatting
Diffusiemodellen vormen een nieuwe klasse van generatieve modellen en hebben beeldgeneratie aanzienlijk bevorderd met een ongekende kwaliteit en diversiteit. Bestaande diffusiemodellen proberen voornamelijk een invoerbeeld te reconstrueren vanuit een beschadigd beeld met een pixelgewijze of feature-gewijze beperking langs ruimtelijke assen. Echter, kan een dergelijke puntgebaseerde reconstructie er niet in slagen om elke voorspelde pixel/feature volledig zijn nabijheidscontext te laten behouden, wat de op diffusie gebaseerde beeldgeneratie schaadt. Als een krachtige bron van automatisch toezichtsignaal is context uitgebreid bestudeerd voor het leren van representaties. Geïnspireerd door dit, stellen wij voor het eerst ConPreDiff voor om op diffusie gebaseerde beeldgeneratie te verbeteren met contextvoorspelling. Wij versterken expliciet elk punt om zijn nabijheidscontext (d.w.z., multi-stride features/tokens/pixels) te voorspellen met een contextdecoder aan het einde van diffusie denoising blokken in de trainingsfase, en verwijderen de decoder voor inferentie. Op deze manier kan elk punt zichzelf beter reconstrueren door zijn semantische verbindingen met de nabijheidscontext te behouden. Dit nieuwe paradigma van ConPreDiff kan worden gegeneraliseerd naar willekeurige discrete en continue diffusiebackbones zonder extra parameters te introduceren in het samplingproces. Uitgebreide experimenten worden uitgevoerd op taken voor onvoorwaardelijke beeldgeneratie, tekst-naar-beeldgeneratie en beeldinpainting. Onze ConPreDiff overtreft consistent eerdere methoden en behaalt nieuwe state-of-the-art resultaten voor tekst-naar-beeldgeneratie op MS-COCO, met een zero-shot FID-score van 6,21.
English
Diffusion models are a new class of generative models, and have dramatically
promoted image generation with unprecedented quality and diversity. Existing
diffusion models mainly try to reconstruct input image from a corrupted one
with a pixel-wise or feature-wise constraint along spatial axes. However, such
point-based reconstruction may fail to make each predicted pixel/feature fully
preserve its neighborhood context, impairing diffusion-based image synthesis.
As a powerful source of automatic supervisory signal, context has been well
studied for learning representations. Inspired by this, we for the first time
propose ConPreDiff to improve diffusion-based image synthesis with context
prediction. We explicitly reinforce each point to predict its neighborhood
context (i.e., multi-stride features/tokens/pixels) with a context decoder at
the end of diffusion denoising blocks in training stage, and remove the decoder
for inference. In this way, each point can better reconstruct itself by
preserving its semantic connections with neighborhood context. This new
paradigm of ConPreDiff can generalize to arbitrary discrete and continuous
diffusion backbones without introducing extra parameters in sampling procedure.
Extensive experiments are conducted on unconditional image generation,
text-to-image generation and image inpainting tasks. Our ConPreDiff
consistently outperforms previous methods and achieves a new SOTA text-to-image
generation results on MS-COCO, with a zero-shot FID score of 6.21.