Migliorare la Sintesi di Immagini Basata su Diffusione con la Predizione del Contesto

Abstract

I modelli di diffusione rappresentano una nuova classe di modelli generativi e hanno notevolmente migliorato la generazione di immagini, raggiungendo una qualità e una diversità senza precedenti. I modelli di diffusione esistenti cercano principalmente di ricostruire un'immagine di input a partire da una corrotta, utilizzando vincoli pixel-wise o feature-wise lungo gli assi spaziali. Tuttavia, tale ricostruzione basata su singoli punti potrebbe non garantire che ogni pixel/feature previsto preservi completamente il contesto del suo intorno, compromettendo la sintesi di immagini basata sulla diffusione. Il contesto, come potente fonte di segnale di supervisione automatica, è stato ampiamente studiato per l'apprendimento di rappresentazioni. Ispirati da ciò, proponiamo per la prima volta ConPreDiff per migliorare la sintesi di immagini basata sulla diffusione attraverso la previsione del contesto. Esplicitamente rafforziamo ogni punto per prevedere il contesto del suo intorno (ad esempio, feature/token/pixel a multi-stride) utilizzando un decoder di contesto alla fine dei blocchi di denoising della diffusione durante la fase di addestramento, rimuovendo poi il decoder per l'inferenza. In questo modo, ogni punto può ricostruire se stesso in modo più efficace preservando le sue connessioni semantiche con il contesto circostante. Questo nuovo paradigma di ConPreDiff può generalizzarsi a qualsiasi backbone di diffusione discreta o continua senza introdurre parametri aggiuntivi durante la procedura di campionamento. Sono stati condotti esperimenti estesi su generazione di immagini incondizionata, generazione di immagini da testo e inpainting di immagini. Il nostro ConPreDiff supera costantemente i metodi precedenti e raggiunge nuovi risultati all'avanguardia nella generazione di immagini da testo su MS-COCO, con un punteggio FID zero-shot di 6.21.

English

Diffusion models are a new class of generative models, and have dramatically promoted image generation with unprecedented quality and diversity. Existing diffusion models mainly try to reconstruct input image from a corrupted one with a pixel-wise or feature-wise constraint along spatial axes. However, such point-based reconstruction may fail to make each predicted pixel/feature fully preserve its neighborhood context, impairing diffusion-based image synthesis. As a powerful source of automatic supervisory signal, context has been well studied for learning representations. Inspired by this, we for the first time propose ConPreDiff to improve diffusion-based image synthesis with context prediction. We explicitly reinforce each point to predict its neighborhood context (i.e., multi-stride features/tokens/pixels) with a context decoder at the end of diffusion denoising blocks in training stage, and remove the decoder for inference. In this way, each point can better reconstruct itself by preserving its semantic connections with neighborhood context. This new paradigm of ConPreDiff can generalize to arbitrary discrete and continuous diffusion backbones without introducing extra parameters in sampling procedure. Extensive experiments are conducted on unconditional image generation, text-to-image generation and image inpainting tasks. Our ConPreDiff consistently outperforms previous methods and achieves a new SOTA text-to-image generation results on MS-COCO, with a zero-shot FID score of 6.21.

Migliorare la Sintesi di Immagini Basata su Diffusione con la Predizione del Contesto

Improving Diffusion-Based Image Synthesis with Context Prediction

Abstract

Support