ChatPaper.aiChatPaper

Semantica: Un Modello di Diffusione Condizionato alle Immagini e Adattabile

Semantica: An Adaptable Image-Conditioned Diffusion Model

May 23, 2024
Autori: Manoj Kumar, Neil Houlsby, Emiel Hoogeboom
cs.AI

Abstract

Investighiamo il compito di adattare modelli generativi di immagini a diversi dataset senza eseguire il fine-tuning. A tal fine, introduciamo Semantica, un modello di diffusione condizionato da immagini in grado di generare immagini basandosi sulla semantica di un'immagine di condizionamento. Semantica viene addestrato esclusivamente su coppie di immagini su scala web, ovvero riceve un'immagine casuale da una pagina web come input condizionale e modella un'altra immagine casuale dalla stessa pagina web. I nostri esperimenti evidenziano l'espressività degli encoder di immagini pre-addestrati e la necessità di un filtraggio dei dati basato sulla semantica per ottenere una generazione di immagini di alta qualità. Una volta addestrato, il modello può generare in modo adattivo nuove immagini da un dataset semplicemente utilizzando immagini provenienti da quel dataset come input. Studiamo le proprietà di trasferimento di Semantica su ImageNet, LSUN Churches, LSUN Bedroom e SUN397.
English
We investigate the task of adapting image generative models to different datasets without finetuneing. To this end, we introduce Semantica, an image-conditioned diffusion model capable of generating images based on the semantics of a conditioning image. Semantica is trained exclusively on web-scale image pairs, that is it receives a random image from a webpage as conditional input and models another random image from the same webpage. Our experiments highlight the expressivity of pretrained image encoders and necessity of semantic-based data filtering in achieving high-quality image generation. Once trained, it can adaptively generate new images from a dataset by simply using images from that dataset as input. We study the transfer properties of Semantica on ImageNet, LSUN Churches, LSUN Bedroom and SUN397.
PDF110February 8, 2026