EmerDiff: Conoscenza Semantica a Livello di Pixel Emergente nei Modelli di Diffusione
EmerDiff: Emerging Pixel-level Semantic Knowledge in Diffusion Models
January 22, 2024
Autori: Koichi Namekata, Amirmojtaba Sabour, Sanja Fidler, Seung Wook Kim
cs.AI
Abstract
I modelli di diffusione hanno recentemente ricevuto un'attenzione crescente nella ricerca per le loro notevoli capacità di trasferimento nei compiti di segmentazione semantica. Tuttavia, la generazione di maschere di segmentazione dettagliate con i modelli di diffusione spesso richiede un addestramento aggiuntivo su dataset annotati, lasciando incerto fino a che punto i modelli di diffusione pre-addestrati comprendano da soli le relazioni semantiche delle immagini generate. Per affrontare questa questione, sfruttiamo la conoscenza semantica estratta da Stable Diffusion (SD) e miriamo a sviluppare un segmentatore di immagini in grado di generare mappe di segmentazione dettagliate senza alcun addestramento aggiuntivo. La difficoltà principale deriva dal fatto che le mappe di caratteristiche semanticamente significative esistono tipicamente solo negli strati spazialmente a bassa dimensionalità, il che rappresenta una sfida nell'estrazione diretta delle relazioni semantiche a livello di pixel da queste mappe di caratteristiche. Per superare questo problema, il nostro framework identifica le corrispondenze semantiche tra i pixel dell'immagine e le posizioni spaziali delle mappe di caratteristiche a bassa dimensionalità sfruttando il processo di generazione di SD e le utilizza per costruire mappe di segmentazione alla risoluzione dell'immagine. In esperimenti estesi, le mappe di segmentazione prodotte si dimostrano ben delineate e catturano parti dettagliate delle immagini, indicando l'esistenza di una conoscenza semantica a livello di pixel altamente accurata nei modelli di diffusione.
English
Diffusion models have recently received increasing research attention for
their remarkable transfer abilities in semantic segmentation tasks. However,
generating fine-grained segmentation masks with diffusion models often requires
additional training on annotated datasets, leaving it unclear to what extent
pre-trained diffusion models alone understand the semantic relations of their
generated images. To address this question, we leverage the semantic knowledge
extracted from Stable Diffusion (SD) and aim to develop an image segmentor
capable of generating fine-grained segmentation maps without any additional
training. The primary difficulty stems from the fact that semantically
meaningful feature maps typically exist only in the spatially lower-dimensional
layers, which poses a challenge in directly extracting pixel-level semantic
relations from these feature maps. To overcome this issue, our framework
identifies semantic correspondences between image pixels and spatial locations
of low-dimensional feature maps by exploiting SD's generation process and
utilizes them for constructing image-resolution segmentation maps. In extensive
experiments, the produced segmentation maps are demonstrated to be well
delineated and capture detailed parts of the images, indicating the existence
of highly accurate pixel-level semantic knowledge in diffusion models.