EmerDiff: Формирование семантических знаний на уровне пикселей в диффузионных моделях
EmerDiff: Emerging Pixel-level Semantic Knowledge in Diffusion Models
January 22, 2024
Авторы: Koichi Namekata, Amirmojtaba Sabour, Sanja Fidler, Seung Wook Kim
cs.AI
Аннотация
Диффузионные модели в последнее время привлекают все больше внимания исследователей благодаря их впечатляющим способностям к переносу в задачах семантической сегментации. Однако генерация детализированных масок сегментации с использованием диффузионных моделей часто требует дополнительного обучения на аннотированных наборах данных, что оставляет неясным, в какой степени предобученные диффузионные модели сами по себе понимают семантические отношения в создаваемых ими изображениях. Чтобы ответить на этот вопрос, мы используем семантические знания, извлеченные из модели Stable Diffusion (SD), и стремимся разработать сегментатор изображений, способный генерировать детализированные карты сегментации без какого-либо дополнительного обучения. Основная сложность заключается в том, что семантически значимые карты признаков обычно существуют только в пространственно низкоразмерных слоях, что создает трудности при прямом извлечении пиксельных семантических отношений из этих карт. Чтобы преодолеть эту проблему, наша система выявляет семантические соответствия между пикселями изображения и пространственными расположениями низкоразмерных карт признаков, используя процесс генерации SD, и применяет их для построения карт сегментации с разрешением изображения. В ходе обширных экспериментов созданные карты сегментации демонстрируют четкие границы и детально захватывают части изображений, что указывает на наличие высокоточных пиксельных семантических знаний в диффузионных моделях.
English
Diffusion models have recently received increasing research attention for
their remarkable transfer abilities in semantic segmentation tasks. However,
generating fine-grained segmentation masks with diffusion models often requires
additional training on annotated datasets, leaving it unclear to what extent
pre-trained diffusion models alone understand the semantic relations of their
generated images. To address this question, we leverage the semantic knowledge
extracted from Stable Diffusion (SD) and aim to develop an image segmentor
capable of generating fine-grained segmentation maps without any additional
training. The primary difficulty stems from the fact that semantically
meaningful feature maps typically exist only in the spatially lower-dimensional
layers, which poses a challenge in directly extracting pixel-level semantic
relations from these feature maps. To overcome this issue, our framework
identifies semantic correspondences between image pixels and spatial locations
of low-dimensional feature maps by exploiting SD's generation process and
utilizes them for constructing image-resolution segmentation maps. In extensive
experiments, the produced segmentation maps are demonstrated to be well
delineated and capture detailed parts of the images, indicating the existence
of highly accurate pixel-level semantic knowledge in diffusion models.