EmerDiff: Entstehende pixelweise semantische Kenntnisse in Diffusionsmodellen
EmerDiff: Emerging Pixel-level Semantic Knowledge in Diffusion Models
January 22, 2024
Autoren: Koichi Namekata, Amirmojtaba Sabour, Sanja Fidler, Seung Wook Kim
cs.AI
Zusammenfassung
Diffusionsmodelle haben in letzter Zeit zunehmend Forschungsaufmerksamkeit erhalten, insbesondere aufgrund ihrer bemerkenswerten Transferfähigkeiten bei Aufgaben der semantischen Segmentierung. Die Erzeugung fein abgestufter Segmentierungsmasken mit Diffusionsmodellen erfordert jedoch oft zusätzliches Training auf annotierten Datensätzen, wodurch unklar bleibt, inwieweit vortrainierte Diffusionsmodelle allein die semantischen Beziehungen ihrer generierten Bilder verstehen. Um diese Frage zu beantworten, nutzen wir das semantische Wissen, das aus Stable Diffusion (SD) extrahiert wird, und streben die Entwicklung eines Bildsegmentierers an, der fein abgestufte Segmentierungskarten ohne zusätzliches Training erzeugen kann. Die Hauptschwierigkeit besteht darin, dass semantisch bedeutsame Merkmalskarten typischerweise nur in den räumlich niedrigdimensionalen Schichten existieren, was die direkte Extraktion pixelweiser semantischer Beziehungen aus diesen Merkmalskarten erschwert. Um dieses Problem zu überwinden, identifiziert unser Framework semantische Korrespondenzen zwischen Bildpixeln und räumlichen Positionen der niedrigdimensionalen Merkmalskarten, indem es den Generierungsprozess von SD nutzt, und verwendet diese zur Konstruktion von bildauflösenden Segmentierungskarten. In umfangreichen Experimenten zeigen die erzeugten Segmentierungskarten eine klare Abgrenzung und erfassen detaillierte Bildteile, was auf die Existenz hochgenauer pixelweiser semantischer Kenntnisse in Diffusionsmodellen hinweist.
English
Diffusion models have recently received increasing research attention for
their remarkable transfer abilities in semantic segmentation tasks. However,
generating fine-grained segmentation masks with diffusion models often requires
additional training on annotated datasets, leaving it unclear to what extent
pre-trained diffusion models alone understand the semantic relations of their
generated images. To address this question, we leverage the semantic knowledge
extracted from Stable Diffusion (SD) and aim to develop an image segmentor
capable of generating fine-grained segmentation maps without any additional
training. The primary difficulty stems from the fact that semantically
meaningful feature maps typically exist only in the spatially lower-dimensional
layers, which poses a challenge in directly extracting pixel-level semantic
relations from these feature maps. To overcome this issue, our framework
identifies semantic correspondences between image pixels and spatial locations
of low-dimensional feature maps by exploiting SD's generation process and
utilizes them for constructing image-resolution segmentation maps. In extensive
experiments, the produced segmentation maps are demonstrated to be well
delineated and capture detailed parts of the images, indicating the existence
of highly accurate pixel-level semantic knowledge in diffusion models.