ChatPaper.aiChatPaper

Mejorando la síntesis de imágenes basada en difusión con predicción de contexto

Improving Diffusion-Based Image Synthesis with Context Prediction

January 4, 2024
Autores: Ling Yang, Jingwei Liu, Shenda Hong, Zhilong Zhang, Zhilin Huang, Zheming Cai, Wentao Zhang, Bin Cui
cs.AI

Resumen

Los modelos de difusión son una nueva clase de modelos generativos que han impulsado significativamente la generación de imágenes con una calidad y diversidad sin precedentes. Los modelos de difusión existentes intentan principalmente reconstruir una imagen de entrada a partir de una versión corrompida, utilizando restricciones basadas en píxeles o características a lo largo de ejes espaciales. Sin embargo, esta reconstrucción basada en puntos puede fallar al hacer que cada píxel/característica predicha preserve completamente su contexto vecinal, lo que perjudica la síntesis de imágenes basada en difusión. Como una poderosa fuente de señal de supervisión automática, el contexto ha sido ampliamente estudiado para el aprendizaje de representaciones. Inspirados por esto, proponemos por primera vez ConPreDiff para mejorar la síntesis de imágenes basada en difusión mediante la predicción de contexto. Refuerzamos explícitamente cada punto para predecir su contexto vecinal (es decir, características/tokens/píxeles con múltiples pasos) utilizando un decodificador de contexto al final de los bloques de eliminación de ruido en la etapa de entrenamiento, y eliminamos el decodificador durante la inferencia. De esta manera, cada punto puede reconstruirse mejor al preservar sus conexiones semánticas con el contexto vecinal. Este nuevo paradigma de ConPreDiff puede generalizarse a cualquier arquitectura de difusión discreta o continua sin introducir parámetros adicionales en el proceso de muestreo. Se realizaron experimentos exhaustivos en tareas de generación de imágenes incondicional, generación de texto a imagen y restauración de imágenes. Nuestro ConPreDiff supera consistentemente los métodos anteriores y logra nuevos resultados de referencia en la generación de texto a imagen en MS-COCO, con un puntaje FID de cero-shot de 6.21.
English
Diffusion models are a new class of generative models, and have dramatically promoted image generation with unprecedented quality and diversity. Existing diffusion models mainly try to reconstruct input image from a corrupted one with a pixel-wise or feature-wise constraint along spatial axes. However, such point-based reconstruction may fail to make each predicted pixel/feature fully preserve its neighborhood context, impairing diffusion-based image synthesis. As a powerful source of automatic supervisory signal, context has been well studied for learning representations. Inspired by this, we for the first time propose ConPreDiff to improve diffusion-based image synthesis with context prediction. We explicitly reinforce each point to predict its neighborhood context (i.e., multi-stride features/tokens/pixels) with a context decoder at the end of diffusion denoising blocks in training stage, and remove the decoder for inference. In this way, each point can better reconstruct itself by preserving its semantic connections with neighborhood context. This new paradigm of ConPreDiff can generalize to arbitrary discrete and continuous diffusion backbones without introducing extra parameters in sampling procedure. Extensive experiments are conducted on unconditional image generation, text-to-image generation and image inpainting tasks. Our ConPreDiff consistently outperforms previous methods and achieves a new SOTA text-to-image generation results on MS-COCO, with a zero-shot FID score of 6.21.
PDF81December 15, 2024