Melhorando a Síntese de Imagens Baseada em Difusão com Predição de Contexto
Improving Diffusion-Based Image Synthesis with Context Prediction
January 4, 2024
Autores: Ling Yang, Jingwei Liu, Shenda Hong, Zhilong Zhang, Zhilin Huang, Zheming Cai, Wentao Zhang, Bin Cui
cs.AI
Resumo
Os modelos de difusão são uma nova classe de modelos generativos e promoveram dramaticamente a geração de imagens com qualidade e diversidade sem precedentes. Os modelos de difusão existentes tentam principalmente reconstruir a imagem de entrada a partir de uma imagem corrompida com uma restrição pixel a pixel ou baseada em características ao longo dos eixos espaciais. No entanto, essa reconstrução baseada em pontos pode falhar em fazer com que cada pixel/característica previsto preserve completamente o contexto de sua vizinhança, prejudicando a síntese de imagens baseada em difusão. Como uma poderosa fonte de sinal de supervisão automática, o contexto tem sido amplamente estudado para o aprendizado de representações. Inspirados por isso, propomos pela primeira vez o ConPreDiff para melhorar a síntese de imagens baseada em difusão com a previsão de contexto. Reforçamos explicitamente cada ponto para prever o contexto de sua vizinhança (ou seja, características/tokens/pixels com múltiplos passos) com um decodificador de contexto no final dos blocos de remoção de ruído da difusão durante a fase de treinamento, e removemos o decodificador para inferência. Dessa forma, cada ponto pode se reconstruir melhor preservando suas conexões semânticas com o contexto da vizinhança. Esse novo paradigma do ConPreDiff pode ser generalizado para backbones de difusão discretos e contínuos arbitrários sem introduzir parâmetros extras no procedimento de amostragem. Experimentos extensivos foram conduzidos em tarefas de geração incondicional de imagens, geração de texto para imagem e preenchimento de imagens. Nosso ConPreDiff supera consistentemente os métodos anteriores e alcança novos resultados de estado da arte (SOTA) em geração de texto para imagem no MS-COCO, com um score FID zero-shot de 6,21.
English
Diffusion models are a new class of generative models, and have dramatically
promoted image generation with unprecedented quality and diversity. Existing
diffusion models mainly try to reconstruct input image from a corrupted one
with a pixel-wise or feature-wise constraint along spatial axes. However, such
point-based reconstruction may fail to make each predicted pixel/feature fully
preserve its neighborhood context, impairing diffusion-based image synthesis.
As a powerful source of automatic supervisory signal, context has been well
studied for learning representations. Inspired by this, we for the first time
propose ConPreDiff to improve diffusion-based image synthesis with context
prediction. We explicitly reinforce each point to predict its neighborhood
context (i.e., multi-stride features/tokens/pixels) with a context decoder at
the end of diffusion denoising blocks in training stage, and remove the decoder
for inference. In this way, each point can better reconstruct itself by
preserving its semantic connections with neighborhood context. This new
paradigm of ConPreDiff can generalize to arbitrary discrete and continuous
diffusion backbones without introducing extra parameters in sampling procedure.
Extensive experiments are conducted on unconditional image generation,
text-to-image generation and image inpainting tasks. Our ConPreDiff
consistently outperforms previous methods and achieves a new SOTA text-to-image
generation results on MS-COCO, with a zero-shot FID score of 6.21.