Verbetering van op diffusie gebaseerde beeldgeneratie met contextvoorspelling

Samenvatting

Diffusiemodellen vormen een nieuwe klasse van generatieve modellen en hebben beeldgeneratie aanzienlijk bevorderd met een ongekende kwaliteit en diversiteit. Bestaande diffusiemodellen proberen voornamelijk een invoerbeeld te reconstrueren vanuit een beschadigd beeld met een pixelgewijze of feature-gewijze beperking langs ruimtelijke assen. Echter, kan een dergelijke puntgebaseerde reconstructie er niet in slagen om elke voorspelde pixel/feature volledig zijn nabijheidscontext te laten behouden, wat de op diffusie gebaseerde beeldgeneratie schaadt. Als een krachtige bron van automatisch toezichtsignaal is context uitgebreid bestudeerd voor het leren van representaties. Geïnspireerd door dit, stellen wij voor het eerst ConPreDiff voor om op diffusie gebaseerde beeldgeneratie te verbeteren met contextvoorspelling. Wij versterken expliciet elk punt om zijn nabijheidscontext (d.w.z., multi-stride features/tokens/pixels) te voorspellen met een contextdecoder aan het einde van diffusie denoising blokken in de trainingsfase, en verwijderen de decoder voor inferentie. Op deze manier kan elk punt zichzelf beter reconstrueren door zijn semantische verbindingen met de nabijheidscontext te behouden. Dit nieuwe paradigma van ConPreDiff kan worden gegeneraliseerd naar willekeurige discrete en continue diffusiebackbones zonder extra parameters te introduceren in het samplingproces. Uitgebreide experimenten worden uitgevoerd op taken voor onvoorwaardelijke beeldgeneratie, tekst-naar-beeldgeneratie en beeldinpainting. Onze ConPreDiff overtreft consistent eerdere methoden en behaalt nieuwe state-of-the-art resultaten voor tekst-naar-beeldgeneratie op MS-COCO, met een zero-shot FID-score van 6,21.

English

Diffusion models are a new class of generative models, and have dramatically promoted image generation with unprecedented quality and diversity. Existing diffusion models mainly try to reconstruct input image from a corrupted one with a pixel-wise or feature-wise constraint along spatial axes. However, such point-based reconstruction may fail to make each predicted pixel/feature fully preserve its neighborhood context, impairing diffusion-based image synthesis. As a powerful source of automatic supervisory signal, context has been well studied for learning representations. Inspired by this, we for the first time propose ConPreDiff to improve diffusion-based image synthesis with context prediction. We explicitly reinforce each point to predict its neighborhood context (i.e., multi-stride features/tokens/pixels) with a context decoder at the end of diffusion denoising blocks in training stage, and remove the decoder for inference. In this way, each point can better reconstruct itself by preserving its semantic connections with neighborhood context. This new paradigm of ConPreDiff can generalize to arbitrary discrete and continuous diffusion backbones without introducing extra parameters in sampling procedure. Extensive experiments are conducted on unconditional image generation, text-to-image generation and image inpainting tasks. Our ConPreDiff consistently outperforms previous methods and achieves a new SOTA text-to-image generation results on MS-COCO, with a zero-shot FID score of 6.21.

Verbetering van op diffusie gebaseerde beeldgeneratie met contextvoorspelling

Improving Diffusion-Based Image Synthesis with Context Prediction

Samenvatting

Support