Semantica: Ein anpassbares Bild-konditioniertes Diffusionsmodell
Semantica: An Adaptable Image-Conditioned Diffusion Model
May 23, 2024
Autoren: Manoj Kumar, Neil Houlsby, Emiel Hoogeboom
cs.AI
Zusammenfassung
Wir untersuchen die Aufgabe, Bild-generative Modelle an verschiedene Datensätze anzupassen, ohne Feinabstimmung. Zu diesem Zweck stellen wir Semantica vor, ein bildkonditioniertes Diffusionsmodell, das in der Lage ist, Bilder basierend auf der Semantik eines konditionierenden Bildes zu generieren. Semantica wird ausschließlich an Bildpaaren im Web-Maßstab trainiert, d. h. es erhält ein zufälliges Bild von einer Webseite als bedingte Eingabe und modelliert ein anderes zufälliges Bild von derselben Webseite. Unsere Experimente heben die Ausdruckskraft vortrainierter Bildkodierer und die Notwendigkeit der semantikbasierten Datensortierung zur Erzielung hochwertiger Bildgenerierung hervor. Einmal trainiert, kann es adaptiv neue Bilder aus einem Datensatz generieren, indem es einfach Bilder aus diesem Datensatz als Eingabe verwendet. Wir untersuchen die Übertragungseigenschaften von Semantica auf ImageNet, LSUN-Kirchen, LSUN-Schlafzimmer und SUN397.
English
We investigate the task of adapting image generative models to different
datasets without finetuneing. To this end, we introduce Semantica, an
image-conditioned diffusion model capable of generating images based on the
semantics of a conditioning image. Semantica is trained exclusively on
web-scale image pairs, that is it receives a random image from a webpage as
conditional input and models another random image from the same webpage. Our
experiments highlight the expressivity of pretrained image encoders and
necessity of semantic-based data filtering in achieving high-quality image
generation. Once trained, it can adaptively generate new images from a dataset
by simply using images from that dataset as input. We study the transfer
properties of Semantica on ImageNet, LSUN Churches, LSUN Bedroom and SUN397.Summary
AI-Generated Summary