ChatPaper.aiChatPaper

Desbloqueo de arquitecturas preentrenadas de imágenes para la síntesis semántica de imágenes

Unlocking Pre-trained Image Backbones for Semantic Image Synthesis

December 20, 2023
Autores: Tariq Berrada, Jakob Verbeek, Camille Couprie, Karteek Alahari
cs.AI

Resumen

La síntesis semántica de imágenes, es decir, la generación de imágenes a partir de mapas de etiquetas semánticas proporcionados por el usuario, es una tarea importante de generación condicional de imágenes, ya que permite controlar tanto el contenido como la disposición espacial de las imágenes generadas. Aunque los modelos de difusión han llevado el estado del arte en la modelización generativa de imágenes, la naturaleza iterativa de su proceso de inferencia los hace computacionalmente demandantes. Otros enfoques, como las GAN, son más eficientes, ya que solo requieren un único paso de propagación hacia adelante para la generación, pero la calidad de la imagen tiende a verse afectada en conjuntos de datos grandes y diversos. En este trabajo, proponemos una nueva clase de discriminadores GAN para la síntesis semántica de imágenes que genera imágenes altamente realistas aprovechando redes de características preentrenadas para tareas como la clasificación de imágenes. También introducimos una nueva arquitectura de generador con un mejor modelado de contexto y utilizando atención cruzada para inyectar ruido en variables latentes, lo que resulta en imágenes generadas más diversas. Nuestro modelo, al que denominamos DP-SIMS, logra resultados de vanguardia en términos de calidad de imagen y coherencia con los mapas de etiquetas de entrada en ADE-20K, COCO-Stuff y Cityscapes, superando a los recientes modelos de difusión mientras requiere dos órdenes de magnitud menos de cómputo para la inferencia.
English
Semantic image synthesis, i.e., generating images from user-provided semantic label maps, is an important conditional image generation task as it allows to control both the content as well as the spatial layout of generated images. Although diffusion models have pushed the state of the art in generative image modeling, the iterative nature of their inference process makes them computationally demanding. Other approaches such as GANs are more efficient as they only need a single feed-forward pass for generation, but the image quality tends to suffer on large and diverse datasets. In this work, we propose a new class of GAN discriminators for semantic image synthesis that generates highly realistic images by exploiting feature backbone networks pre-trained for tasks such as image classification. We also introduce a new generator architecture with better context modeling and using cross-attention to inject noise into latent variables, leading to more diverse generated images. Our model, which we dub DP-SIMS, achieves state-of-the-art results in terms of image quality and consistency with the input label maps on ADE-20K, COCO-Stuff, and Cityscapes, surpassing recent diffusion models while requiring two orders of magnitude less compute for inference.
PDF91December 15, 2024