EmerDiff: Emergência de Conhecimento Semântico em Nível de Pixel em Modelos de Difusão
EmerDiff: Emerging Pixel-level Semantic Knowledge in Diffusion Models
January 22, 2024
Autores: Koichi Namekata, Amirmojtaba Sabour, Sanja Fidler, Seung Wook Kim
cs.AI
Resumo
Modelos de difusão têm recebido crescente atenção na pesquisa devido às suas notáveis habilidades de transferência em tarefas de segmentação semântica. No entanto, gerar máscaras de segmentação refinadas com modelos de difusão frequentemente requer treinamento adicional em conjuntos de dados anotados, deixando incerto até que ponto os modelos de difusão pré-treinados, por si só, compreendem as relações semânticas das imagens que geram. Para abordar essa questão, aproveitamos o conhecimento semântico extraído do Stable Diffusion (SD) e buscamos desenvolver um segmentador de imagens capaz de gerar mapas de segmentação refinados sem qualquer treinamento adicional. A principal dificuldade decorre do fato de que mapas de características semanticamente significativos geralmente existem apenas nas camadas espacialmente de menor dimensionalidade, o que representa um desafio na extração direta de relações semânticas em nível de pixel a partir desses mapas de características. Para superar esse problema, nosso framework identifica correspondências semânticas entre os pixels da imagem e as localizações espaciais dos mapas de características de baixa dimensionalidade, explorando o processo de geração do SD, e as utiliza para construir mapas de segmentação em resolução de imagem. Em experimentos extensivos, os mapas de segmentação produzidos demonstraram ser bem delineados e capturar partes detalhadas das imagens, indicando a existência de conhecimento semântico altamente preciso em nível de pixel nos modelos de difusão.
English
Diffusion models have recently received increasing research attention for
their remarkable transfer abilities in semantic segmentation tasks. However,
generating fine-grained segmentation masks with diffusion models often requires
additional training on annotated datasets, leaving it unclear to what extent
pre-trained diffusion models alone understand the semantic relations of their
generated images. To address this question, we leverage the semantic knowledge
extracted from Stable Diffusion (SD) and aim to develop an image segmentor
capable of generating fine-grained segmentation maps without any additional
training. The primary difficulty stems from the fact that semantically
meaningful feature maps typically exist only in the spatially lower-dimensional
layers, which poses a challenge in directly extracting pixel-level semantic
relations from these feature maps. To overcome this issue, our framework
identifies semantic correspondences between image pixels and spatial locations
of low-dimensional feature maps by exploiting SD's generation process and
utilizes them for constructing image-resolution segmentation maps. In extensive
experiments, the produced segmentation maps are demonstrated to be well
delineated and capture detailed parts of the images, indicating the existence
of highly accurate pixel-level semantic knowledge in diffusion models.