EmerDiff : Émergence de connaissances sémantiques au niveau des pixels dans les modèles de diffusion
EmerDiff: Emerging Pixel-level Semantic Knowledge in Diffusion Models
January 22, 2024
Auteurs: Koichi Namekata, Amirmojtaba Sabour, Sanja Fidler, Seung Wook Kim
cs.AI
Résumé
Les modèles de diffusion ont récemment suscité un intérêt croissant dans la recherche pour leurs remarquables capacités de transfert dans les tâches de segmentation sémantique. Cependant, la génération de masques de segmentation fine avec ces modèles nécessite souvent un entraînement supplémentaire sur des ensembles de données annotées, laissant incertaine la mesure dans laquelle les modèles de diffusion pré-entraînés comprennent seuls les relations sémantiques des images qu'ils génèrent. Pour répondre à cette question, nous exploitons les connaissances sémantiques extraites de Stable Diffusion (SD) et visons à développer un segmentateur d'images capable de générer des cartes de segmentation fine sans aucun entraînement supplémentaire. La principale difficulté réside dans le fait que les cartes de caractéristiques sémantiquement significatives existent généralement uniquement dans les couches spatialement de faible dimension, ce qui pose un défi pour extraire directement les relations sémantiques au niveau des pixels à partir de ces cartes. Pour surmonter ce problème, notre cadre identifie les correspondances sémantiques entre les pixels de l'image et les emplacements spatiaux des cartes de caractéristiques de faible dimension en exploitant le processus de génération de SD, et les utilise pour construire des cartes de segmentation à la résolution de l'image. Dans des expériences approfondies, les cartes de segmentation produites se révèlent bien délimitées et capturent des parties détaillées des images, indiquant l'existence de connaissances sémantiques précises au niveau des pixels dans les modèles de diffusion.
English
Diffusion models have recently received increasing research attention for
their remarkable transfer abilities in semantic segmentation tasks. However,
generating fine-grained segmentation masks with diffusion models often requires
additional training on annotated datasets, leaving it unclear to what extent
pre-trained diffusion models alone understand the semantic relations of their
generated images. To address this question, we leverage the semantic knowledge
extracted from Stable Diffusion (SD) and aim to develop an image segmentor
capable of generating fine-grained segmentation maps without any additional
training. The primary difficulty stems from the fact that semantically
meaningful feature maps typically exist only in the spatially lower-dimensional
layers, which poses a challenge in directly extracting pixel-level semantic
relations from these feature maps. To overcome this issue, our framework
identifies semantic correspondences between image pixels and spatial locations
of low-dimensional feature maps by exploiting SD's generation process and
utilizes them for constructing image-resolution segmentation maps. In extensive
experiments, the produced segmentation maps are demonstrated to be well
delineated and capture detailed parts of the images, indicating the existence
of highly accurate pixel-level semantic knowledge in diffusion models.