Semantica: Um Modelo de Difusão Adaptável Condicionado por Imagem
Semantica: An Adaptable Image-Conditioned Diffusion Model
May 23, 2024
Autores: Manoj Kumar, Neil Houlsby, Emiel Hoogeboom
cs.AI
Resumo
Investigamos a tarefa de adaptar modelos generativos de imagens a diferentes conjuntos de dados sem a necessidade de ajuste fino. Para isso, introduzimos o Semantica, um modelo de difusão condicionado por imagem capaz de gerar imagens com base na semântica de uma imagem de condicionamento. O Semantica é treinado exclusivamente em pares de imagens em escala da web, ou seja, ele recebe uma imagem aleatória de uma página da web como entrada condicional e modela outra imagem aleatória da mesma página. Nossos experimentos destacam a expressividade de codificadores de imagem pré-treinados e a necessidade de filtragem de dados baseada em semântica para alcançar geração de imagens de alta qualidade. Uma vez treinado, ele pode gerar adaptativamente novas imagens de um conjunto de dados simplesmente utilizando imagens desse conjunto como entrada. Estudamos as propriedades de transferência do Semantica no ImageNet, LSUN Churches, LSUN Bedroom e SUN397.
English
We investigate the task of adapting image generative models to different
datasets without finetuneing. To this end, we introduce Semantica, an
image-conditioned diffusion model capable of generating images based on the
semantics of a conditioning image. Semantica is trained exclusively on
web-scale image pairs, that is it receives a random image from a webpage as
conditional input and models another random image from the same webpage. Our
experiments highlight the expressivity of pretrained image encoders and
necessity of semantic-based data filtering in achieving high-quality image
generation. Once trained, it can adaptively generate new images from a dataset
by simply using images from that dataset as input. We study the transfer
properties of Semantica on ImageNet, LSUN Churches, LSUN Bedroom and SUN397.