ChatPaper.aiChatPaper

Semantica: Un Modelo de Difusión Adaptable Condicionado por Imágenes

Semantica: An Adaptable Image-Conditioned Diffusion Model

May 23, 2024
Autores: Manoj Kumar, Neil Houlsby, Emiel Hoogeboom
cs.AI

Resumen

Investigamos la tarea de adaptar modelos generativos de imágenes a diferentes conjuntos de datos sin necesidad de ajuste fino. Para ello, presentamos Semantica, un modelo de difusión condicionado por imágenes capaz de generar imágenes basadas en la semántica de una imagen de condicionamiento. Semantica se entrena exclusivamente con pares de imágenes a escala web, es decir, recibe una imagen aleatoria de una página web como entrada condicional y modela otra imagen aleatoria de la misma página web. Nuestros experimentos destacan la expresividad de los codificadores de imágenes preentrenados y la necesidad de un filtrado de datos basado en semántica para lograr una generación de imágenes de alta calidad. Una vez entrenado, puede generar adaptativamente nuevas imágenes de un conjunto de datos simplemente utilizando imágenes de ese conjunto como entrada. Estudiamos las propiedades de transferencia de Semantica en ImageNet, LSUN Churches, LSUN Bedroom y SUN397.
English
We investigate the task of adapting image generative models to different datasets without finetuneing. To this end, we introduce Semantica, an image-conditioned diffusion model capable of generating images based on the semantics of a conditioning image. Semantica is trained exclusively on web-scale image pairs, that is it receives a random image from a webpage as conditional input and models another random image from the same webpage. Our experiments highlight the expressivity of pretrained image encoders and necessity of semantic-based data filtering in achieving high-quality image generation. Once trained, it can adaptively generate new images from a dataset by simply using images from that dataset as input. We study the transfer properties of Semantica on ImageNet, LSUN Churches, LSUN Bedroom and SUN397.
PDF110December 15, 2024