Migliorare la Sintesi di Immagini Basata su Diffusione con la Predizione del Contesto
Improving Diffusion-Based Image Synthesis with Context Prediction
January 4, 2024
Autori: Ling Yang, Jingwei Liu, Shenda Hong, Zhilong Zhang, Zhilin Huang, Zheming Cai, Wentao Zhang, Bin Cui
cs.AI
Abstract
I modelli di diffusione rappresentano una nuova classe di modelli generativi e hanno notevolmente migliorato la generazione di immagini, raggiungendo una qualità e una diversità senza precedenti. I modelli di diffusione esistenti cercano principalmente di ricostruire un'immagine di input a partire da una corrotta, utilizzando vincoli pixel-wise o feature-wise lungo gli assi spaziali. Tuttavia, tale ricostruzione basata su singoli punti potrebbe non garantire che ogni pixel/feature previsto preservi completamente il contesto del suo intorno, compromettendo la sintesi di immagini basata sulla diffusione. Il contesto, come potente fonte di segnale di supervisione automatica, è stato ampiamente studiato per l'apprendimento di rappresentazioni. Ispirati da ciò, proponiamo per la prima volta ConPreDiff per migliorare la sintesi di immagini basata sulla diffusione attraverso la previsione del contesto. Esplicitamente rafforziamo ogni punto per prevedere il contesto del suo intorno (ad esempio, feature/token/pixel a multi-stride) utilizzando un decoder di contesto alla fine dei blocchi di denoising della diffusione durante la fase di addestramento, rimuovendo poi il decoder per l'inferenza. In questo modo, ogni punto può ricostruire se stesso in modo più efficace preservando le sue connessioni semantiche con il contesto circostante. Questo nuovo paradigma di ConPreDiff può generalizzarsi a qualsiasi backbone di diffusione discreta o continua senza introdurre parametri aggiuntivi durante la procedura di campionamento. Sono stati condotti esperimenti estesi su generazione di immagini incondizionata, generazione di immagini da testo e inpainting di immagini. Il nostro ConPreDiff supera costantemente i metodi precedenti e raggiunge nuovi risultati all'avanguardia nella generazione di immagini da testo su MS-COCO, con un punteggio FID zero-shot di 6.21.
English
Diffusion models are a new class of generative models, and have dramatically
promoted image generation with unprecedented quality and diversity. Existing
diffusion models mainly try to reconstruct input image from a corrupted one
with a pixel-wise or feature-wise constraint along spatial axes. However, such
point-based reconstruction may fail to make each predicted pixel/feature fully
preserve its neighborhood context, impairing diffusion-based image synthesis.
As a powerful source of automatic supervisory signal, context has been well
studied for learning representations. Inspired by this, we for the first time
propose ConPreDiff to improve diffusion-based image synthesis with context
prediction. We explicitly reinforce each point to predict its neighborhood
context (i.e., multi-stride features/tokens/pixels) with a context decoder at
the end of diffusion denoising blocks in training stage, and remove the decoder
for inference. In this way, each point can better reconstruct itself by
preserving its semantic connections with neighborhood context. This new
paradigm of ConPreDiff can generalize to arbitrary discrete and continuous
diffusion backbones without introducing extra parameters in sampling procedure.
Extensive experiments are conducted on unconditional image generation,
text-to-image generation and image inpainting tasks. Our ConPreDiff
consistently outperforms previous methods and achieves a new SOTA text-to-image
generation results on MS-COCO, with a zero-shot FID score of 6.21.