Семантика: Модель диффузии, зависящая от изображения
Semantica: An Adaptable Image-Conditioned Diffusion Model
May 23, 2024
Авторы: Manoj Kumar, Neil Houlsby, Emiel Hoogeboom
cs.AI
Аннотация
Мы исследуем задачу адаптации генеративных моделей изображений к различным наборам данных без донастройки. В этой связи мы представляем Semantica, диффузионную модель, зависящую от изображения, способную генерировать изображения на основе семантики условного изображения. Semantica обучается исключительно на парах изображений веб-масштаба, то есть она получает случайное изображение с веб-страницы в качестве условного ввода и моделирует другое случайное изображение с той же веб-страницы. Наши эксперименты подчеркивают экспрессивность предварительно обученных кодировщиков изображений и необходимость фильтрации данных на основе семантики для достижения высококачественной генерации изображений. После обучения она может адаптивно генерировать новые изображения из набора данных, просто используя изображения из этого набора данных в качестве ввода. Мы изучаем свойства передачи Semantica на ImageNet, LSUN церкви, LSUN спальни и SUN397.
English
We investigate the task of adapting image generative models to different
datasets without finetuneing. To this end, we introduce Semantica, an
image-conditioned diffusion model capable of generating images based on the
semantics of a conditioning image. Semantica is trained exclusively on
web-scale image pairs, that is it receives a random image from a webpage as
conditional input and models another random image from the same webpage. Our
experiments highlight the expressivity of pretrained image encoders and
necessity of semantic-based data filtering in achieving high-quality image
generation. Once trained, it can adaptively generate new images from a dataset
by simply using images from that dataset as input. We study the transfer
properties of Semantica on ImageNet, LSUN Churches, LSUN Bedroom and SUN397.Summary
AI-Generated Summary