EmerDiff:拡散モデルにおけるピクセルレベルの意味知識の創発
EmerDiff: Emerging Pixel-level Semantic Knowledge in Diffusion Models
January 22, 2024
著者: Koichi Namekata, Amirmojtaba Sabour, Sanja Fidler, Seung Wook Kim
cs.AI
要旨
拡散モデルは最近、セマンティックセグメンテーションタスクにおける優れた転移能力から研究の注目を集めています。しかし、拡散モデルを用いて細粒度のセグメンテーションマスクを生成するには、注釈付きデータセットでの追加学習が必要となることが多く、事前学習済みの拡散モデル単体で生成画像のセマンティック関係をどの程度理解しているかは不明瞭です。この疑問を解決するため、我々はStable Diffusion(SD)から抽出したセマンティック知識を活用し、追加の学習なしで細粒度のセグメンテーションマップを生成可能な画像セグメンターの開発を目指します。主な困難は、セマンティックに意味のある特徴マップが通常、空間的に低次元の層にのみ存在するため、これらの特徴マップから直接ピクセルレベルのセマンティック関係を抽出することが難しい点にあります。この問題を克服するため、我々のフレームワークは、SDの生成プロセスを活用して画像ピクセルと低次元特徴マップの空間位置間のセマンティック対応関係を特定し、それらを画像解像度のセグメンテーションマップ構築に利用します。大規模な実験において、生成されたセグメンテーションマップは明確に輪郭が描かれ、画像の詳細な部分を捉えていることが示され、拡散モデルに高精度なピクセルレベルのセマンティック知識が存在することを示唆しています。
English
Diffusion models have recently received increasing research attention for
their remarkable transfer abilities in semantic segmentation tasks. However,
generating fine-grained segmentation masks with diffusion models often requires
additional training on annotated datasets, leaving it unclear to what extent
pre-trained diffusion models alone understand the semantic relations of their
generated images. To address this question, we leverage the semantic knowledge
extracted from Stable Diffusion (SD) and aim to develop an image segmentor
capable of generating fine-grained segmentation maps without any additional
training. The primary difficulty stems from the fact that semantically
meaningful feature maps typically exist only in the spatially lower-dimensional
layers, which poses a challenge in directly extracting pixel-level semantic
relations from these feature maps. To overcome this issue, our framework
identifies semantic correspondences between image pixels and spatial locations
of low-dimensional feature maps by exploiting SD's generation process and
utilizes them for constructing image-resolution segmentation maps. In extensive
experiments, the produced segmentation maps are demonstrated to be well
delineated and capture detailed parts of the images, indicating the existence
of highly accurate pixel-level semantic knowledge in diffusion models.