EmerDiff: 확산 모델에서 나타나는 픽셀 수준의 의미론적 지식
EmerDiff: Emerging Pixel-level Semantic Knowledge in Diffusion Models
January 22, 2024
저자: Koichi Namekata, Amirmojtaba Sabour, Sanja Fidler, Seung Wook Kim
cs.AI
초록
디퓨전 모델은 최근 의미론적 분할(semantic segmentation) 작업에서 뛰어난 전이 능력으로 인해 점점 더 많은 연구 관심을 받고 있습니다. 그러나 디퓨전 모델을 사용하여 세밀한 분할 마스크를 생성하려면 주석이 달린 데이터셋에 대한 추가 학습이 필요한 경우가 많아, 사전 학습된 디퓨전 모델만으로도 생성된 이미지의 의미론적 관계를 어느 정도 이해하는지 명확하지 않습니다. 이 문제를 해결하기 위해, 우리는 Stable Diffusion(SD)에서 추출된 의미론적 지식을 활용하여 추가 학습 없이도 세밀한 분할 맵을 생성할 수 있는 이미지 분할기를 개발하고자 합니다. 주요 어려움은 의미론적으로 의미 있는 특징 맵(feature map)이 일반적으로 공간적으로 저차원의 레이어에만 존재한다는 점에서 비롯되며, 이는 이러한 특징 맵에서 직접 픽셀 수준의 의미론적 관계를 추출하는 데 어려움을 초래합니다. 이 문제를 극복하기 위해, 우리의 프레임워크는 SD의 생성 과정을 활용하여 이미지 픽셀과 저차원 특징 맵의 공간적 위치 간의 의미론적 대응 관계를 식별하고, 이를 이미지 해상도의 분할 맵을 구성하는 데 활용합니다. 광범위한 실험에서 생성된 분할 맵은 잘 구분되며 이미지의 세부 부분을 포착하는 것으로 나타나, 디퓨전 모델에 매우 정확한 픽셀 수준의 의미론적 지식이 존재함을 보여줍니다.
English
Diffusion models have recently received increasing research attention for
their remarkable transfer abilities in semantic segmentation tasks. However,
generating fine-grained segmentation masks with diffusion models often requires
additional training on annotated datasets, leaving it unclear to what extent
pre-trained diffusion models alone understand the semantic relations of their
generated images. To address this question, we leverage the semantic knowledge
extracted from Stable Diffusion (SD) and aim to develop an image segmentor
capable of generating fine-grained segmentation maps without any additional
training. The primary difficulty stems from the fact that semantically
meaningful feature maps typically exist only in the spatially lower-dimensional
layers, which poses a challenge in directly extracting pixel-level semantic
relations from these feature maps. To overcome this issue, our framework
identifies semantic correspondences between image pixels and spatial locations
of low-dimensional feature maps by exploiting SD's generation process and
utilizes them for constructing image-resolution segmentation maps. In extensive
experiments, the produced segmentation maps are demonstrated to be well
delineated and capture detailed parts of the images, indicating the existence
of highly accurate pixel-level semantic knowledge in diffusion models.