EmerDiff: Emergencia de Conocimiento Semántico a Nivel de Píxel en Modelos de Difusión
EmerDiff: Emerging Pixel-level Semantic Knowledge in Diffusion Models
January 22, 2024
Autores: Koichi Namekata, Amirmojtaba Sabour, Sanja Fidler, Seung Wook Kim
cs.AI
Resumen
Los modelos de difusión han recibido recientemente una creciente atención en la investigación debido a sus notables capacidades de transferencia en tareas de segmentación semántica. Sin embargo, generar máscaras de segmentación detalladas con modelos de difusión a menudo requiere entrenamiento adicional en conjuntos de datos anotados, lo que deja en duda hasta qué punto los modelos de difusión preentrenados comprenden por sí solos las relaciones semánticas de las imágenes que generan. Para abordar esta cuestión, aprovechamos el conocimiento semántico extraído de Stable Diffusion (SD) y buscamos desarrollar un segmentador de imágenes capaz de generar mapas de segmentación detallados sin necesidad de entrenamiento adicional. La principal dificultad radica en que los mapas de características semánticamente significativos suelen existir únicamente en las capas de menor dimensión espacial, lo que representa un desafío para extraer directamente relaciones semánticas a nivel de píxeles de estos mapas de características. Para superar este problema, nuestro marco identifica correspondencias semánticas entre los píxeles de la imagen y las ubicaciones espaciales de los mapas de características de baja dimensión, aprovechando el proceso de generación de SD, y las utiliza para construir mapas de segmentación a resolución de imagen. En experimentos exhaustivos, los mapas de segmentación producidos demuestran estar bien delineados y capturar partes detalladas de las imágenes, lo que indica la existencia de un conocimiento semántico altamente preciso a nivel de píxeles en los modelos de difusión.
English
Diffusion models have recently received increasing research attention for
their remarkable transfer abilities in semantic segmentation tasks. However,
generating fine-grained segmentation masks with diffusion models often requires
additional training on annotated datasets, leaving it unclear to what extent
pre-trained diffusion models alone understand the semantic relations of their
generated images. To address this question, we leverage the semantic knowledge
extracted from Stable Diffusion (SD) and aim to develop an image segmentor
capable of generating fine-grained segmentation maps without any additional
training. The primary difficulty stems from the fact that semantically
meaningful feature maps typically exist only in the spatially lower-dimensional
layers, which poses a challenge in directly extracting pixel-level semantic
relations from these feature maps. To overcome this issue, our framework
identifies semantic correspondences between image pixels and spatial locations
of low-dimensional feature maps by exploiting SD's generation process and
utilizes them for constructing image-resolution segmentation maps. In extensive
experiments, the produced segmentation maps are demonstrated to be well
delineated and capture detailed parts of the images, indicating the existence
of highly accurate pixel-level semantic knowledge in diffusion models.