Улучшение синтеза изображений на основе диффузии с помощью предсказания контекста
Improving Diffusion-Based Image Synthesis with Context Prediction
January 4, 2024
Авторы: Ling Yang, Jingwei Liu, Shenda Hong, Zhilong Zhang, Zhilin Huang, Zheming Cai, Wentao Zhang, Bin Cui
cs.AI
Аннотация
Диффузионные модели представляют собой новый класс генеративных моделей, которые значительно улучшили генерацию изображений, обеспечивая беспрецедентное качество и разнообразие. Существующие диффузионные модели в основном пытаются восстановить входное изображение из искаженного с использованием поточечных или признаковых ограничений вдоль пространственных осей. Однако такая поточечная реконструкция может не обеспечить полного сохранения контекста соседних областей для каждого предсказанного пикселя/признака, что ухудшает синтез изображений на основе диффузии. Контекст, как мощный источник автоматического сигнала обучения, хорошо изучен для задач представления данных. Вдохновленные этим, мы впервые предлагаем ConPreDiff для улучшения синтеза изображений на основе диффузии с использованием предсказания контекста. Мы явно усиливаем каждую точку для предсказания контекста её соседних областей (т.е. признаков/токенов/пикселей с различными шагами) с помощью декодера контекста на этапе обучения в конце блоков удаления шума диффузии, а затем удаляем декодер на этапе вывода. Таким образом, каждая точка может лучше восстанавливать себя, сохраняя семантические связи с контекстом соседних областей. Этот новый подход ConPreDiff может быть обобщен на произвольные дискретные и непрерывные архитектуры диффузионных моделей без введения дополнительных параметров в процессе выборки. Проведены обширные эксперименты на задачах безусловной генерации изображений, генерации изображений по тексту и восстановления изображений. Наш ConPreDiff стабильно превосходит предыдущие методы и устанавливает новый рекорд в генерации изображений по тексту на наборе данных MS-COCO, достигая нулевого показателя FID, равного 6.21.
English
Diffusion models are a new class of generative models, and have dramatically
promoted image generation with unprecedented quality and diversity. Existing
diffusion models mainly try to reconstruct input image from a corrupted one
with a pixel-wise or feature-wise constraint along spatial axes. However, such
point-based reconstruction may fail to make each predicted pixel/feature fully
preserve its neighborhood context, impairing diffusion-based image synthesis.
As a powerful source of automatic supervisory signal, context has been well
studied for learning representations. Inspired by this, we for the first time
propose ConPreDiff to improve diffusion-based image synthesis with context
prediction. We explicitly reinforce each point to predict its neighborhood
context (i.e., multi-stride features/tokens/pixels) with a context decoder at
the end of diffusion denoising blocks in training stage, and remove the decoder
for inference. In this way, each point can better reconstruct itself by
preserving its semantic connections with neighborhood context. This new
paradigm of ConPreDiff can generalize to arbitrary discrete and continuous
diffusion backbones without introducing extra parameters in sampling procedure.
Extensive experiments are conducted on unconditional image generation,
text-to-image generation and image inpainting tasks. Our ConPreDiff
consistently outperforms previous methods and achieves a new SOTA text-to-image
generation results on MS-COCO, with a zero-shot FID score of 6.21.