ChatPaper.aiChatPaper

Семантика: Модель диффузии, зависящая от изображения

Semantica: An Adaptable Image-Conditioned Diffusion Model

May 23, 2024
Авторы: Manoj Kumar, Neil Houlsby, Emiel Hoogeboom
cs.AI

Аннотация

Мы исследуем задачу адаптации генеративных моделей изображений к различным наборам данных без донастройки. В этой связи мы представляем Semantica, диффузионную модель, зависящую от изображения, способную генерировать изображения на основе семантики условного изображения. Semantica обучается исключительно на парах изображений веб-масштаба, то есть она получает случайное изображение с веб-страницы в качестве условного ввода и моделирует другое случайное изображение с той же веб-страницы. Наши эксперименты подчеркивают экспрессивность предварительно обученных кодировщиков изображений и необходимость фильтрации данных на основе семантики для достижения высококачественной генерации изображений. После обучения она может адаптивно генерировать новые изображения из набора данных, просто используя изображения из этого набора данных в качестве ввода. Мы изучаем свойства передачи Semantica на ImageNet, LSUN церкви, LSUN спальни и SUN397.
English
We investigate the task of adapting image generative models to different datasets without finetuneing. To this end, we introduce Semantica, an image-conditioned diffusion model capable of generating images based on the semantics of a conditioning image. Semantica is trained exclusively on web-scale image pairs, that is it receives a random image from a webpage as conditional input and models another random image from the same webpage. Our experiments highlight the expressivity of pretrained image encoders and necessity of semantic-based data filtering in achieving high-quality image generation. Once trained, it can adaptively generate new images from a dataset by simply using images from that dataset as input. We study the transfer properties of Semantica on ImageNet, LSUN Churches, LSUN Bedroom and SUN397.

Summary

AI-Generated Summary

PDF110December 15, 2024