ChatPaper.aiChatPaper

Semantica: Een aanpasbaar beeldgeconditioneerd diffusiemodel

Semantica: An Adaptable Image-Conditioned Diffusion Model

May 23, 2024
Auteurs: Manoj Kumar, Neil Houlsby, Emiel Hoogeboom
cs.AI

Samenvatting

We onderzoeken de taak om beeldgeneratieve modellen aan te passen aan verschillende datasets zonder finetuning. Hiertoe introduceren we Semantica, een beeldgeconditioneerd diffusiemodel dat in staat is om beelden te genereren op basis van de semantiek van een conditioneel beeld. Semantica wordt uitsluitend getraind op web-schaal beeldparen, wat betekent dat het een willekeurig beeld van een webpagina als conditionele invoer ontvangt en een ander willekeurig beeld van dezelfde webpagina modelleert. Onze experimenten benadrukken de expressiviteit van voorgetrainde beeldencoders en de noodzaak van semantiek-gebaseerde datafiltering om hoogwaardige beeldgeneratie te bereiken. Eenmaal getraind, kan het adaptief nieuwe beelden genereren uit een dataset door simpelweg beelden uit die dataset als invoer te gebruiken. We bestuderen de transfereigenschappen van Semantica op ImageNet, LSUN Churches, LSUN Bedroom en SUN397.
English
We investigate the task of adapting image generative models to different datasets without finetuneing. To this end, we introduce Semantica, an image-conditioned diffusion model capable of generating images based on the semantics of a conditioning image. Semantica is trained exclusively on web-scale image pairs, that is it receives a random image from a webpage as conditional input and models another random image from the same webpage. Our experiments highlight the expressivity of pretrained image encoders and necessity of semantic-based data filtering in achieving high-quality image generation. Once trained, it can adaptively generate new images from a dataset by simply using images from that dataset as input. We study the transfer properties of Semantica on ImageNet, LSUN Churches, LSUN Bedroom and SUN397.
PDF110February 8, 2026