Semantica: Um Modelo de Difusão Adaptável Condicionado por Imagem

Resumo

Investigamos a tarefa de adaptar modelos generativos de imagens a diferentes conjuntos de dados sem a necessidade de ajuste fino. Para isso, introduzimos o Semantica, um modelo de difusão condicionado por imagem capaz de gerar imagens com base na semântica de uma imagem de condicionamento. O Semantica é treinado exclusivamente em pares de imagens em escala da web, ou seja, ele recebe uma imagem aleatória de uma página da web como entrada condicional e modela outra imagem aleatória da mesma página. Nossos experimentos destacam a expressividade de codificadores de imagem pré-treinados e a necessidade de filtragem de dados baseada em semântica para alcançar geração de imagens de alta qualidade. Uma vez treinado, ele pode gerar adaptativamente novas imagens de um conjunto de dados simplesmente utilizando imagens desse conjunto como entrada. Estudamos as propriedades de transferência do Semantica no ImageNet, LSUN Churches, LSUN Bedroom e SUN397.

English

We investigate the task of adapting image generative models to different datasets without finetuneing. To this end, we introduce Semantica, an image-conditioned diffusion model capable of generating images based on the semantics of a conditioning image. Semantica is trained exclusively on web-scale image pairs, that is it receives a random image from a webpage as conditional input and models another random image from the same webpage. Our experiments highlight the expressivity of pretrained image encoders and necessity of semantic-based data filtering in achieving high-quality image generation. Once trained, it can adaptively generate new images from a dataset by simply using images from that dataset as input. We study the transfer properties of Semantica on ImageNet, LSUN Churches, LSUN Bedroom and SUN397.

Semantica: Um Modelo de Difusão Adaptável Condicionado por Imagem

Semantica: An Adaptable Image-Conditioned Diffusion Model

Resumo

Support