EmerDiff: Opkomende pixel-niveau semantische kennis in diffusiemodellen
EmerDiff: Emerging Pixel-level Semantic Knowledge in Diffusion Models
January 22, 2024
Auteurs: Koichi Namekata, Amirmojtaba Sabour, Sanja Fidler, Seung Wook Kim
cs.AI
Samenvatting
Diffusiemodellen hebben recentelijk steeds meer onderzoeksaandacht gekregen vanwege hun opmerkelijke overdrachtsmogelijkheden in semantische segmentatietaken. Het genereren van fijnmazige segmentatiemaskers met diffusiemodellen vereist echter vaak aanvullende training op geannoteerde datasets, waardoor het onduidelijk blijft in hoeverre vooraf getrainde diffusiemodellen op zichzelf de semantische relaties van hun gegenereerde afbeeldingen begrijpen. Om deze vraag te beantwoorden, maken we gebruik van de semantische kennis die is geëxtraheerd uit Stable Diffusion (SD) en streven we ernaar een afbeeldingsegmentator te ontwikkelen die in staat is fijnmazige segmentatiekaarten te genereren zonder enige aanvullende training. De grootste uitdaging ligt in het feit dat semantisch betekenisvolle kenmerkkaarten doorgaans alleen bestaan in de ruimtelijk lager-dimensionale lagen, wat een uitdaging vormt bij het direct extraheren van pixel-niveau semantische relaties uit deze kenmerkkaarten. Om dit probleem te overwinnen, identificeert ons framework semantische overeenkomsten tussen afbeeldingspixels en ruimtelijke locaties van laag-dimensionale kenmerkkaarten door het generatieproces van SD te benutten en gebruikt deze voor het construeren van segmentatiekaarten op afbeeldingsresolutie. In uitgebreide experimenten wordt aangetoond dat de geproduceerde segmentatiekaarten goed afgebakend zijn en gedetailleerde delen van de afbeeldingen vastleggen, wat wijst op het bestaan van zeer nauwkeurige pixel-niveau semantische kennis in diffusiemodellen.
English
Diffusion models have recently received increasing research attention for
their remarkable transfer abilities in semantic segmentation tasks. However,
generating fine-grained segmentation masks with diffusion models often requires
additional training on annotated datasets, leaving it unclear to what extent
pre-trained diffusion models alone understand the semantic relations of their
generated images. To address this question, we leverage the semantic knowledge
extracted from Stable Diffusion (SD) and aim to develop an image segmentor
capable of generating fine-grained segmentation maps without any additional
training. The primary difficulty stems from the fact that semantically
meaningful feature maps typically exist only in the spatially lower-dimensional
layers, which poses a challenge in directly extracting pixel-level semantic
relations from these feature maps. To overcome this issue, our framework
identifies semantic correspondences between image pixels and spatial locations
of low-dimensional feature maps by exploiting SD's generation process and
utilizes them for constructing image-resolution segmentation maps. In extensive
experiments, the produced segmentation maps are demonstrated to be well
delineated and capture detailed parts of the images, indicating the existence
of highly accurate pixel-level semantic knowledge in diffusion models.