SLiMe: セグメント・ライク・ミー
SLiMe: Segment Like Me
September 6, 2023
著者: Aliasghar Khani, Saeid Asgari Taghanaki, Aditya Sanghi, Ali Mahdavi Amiri, Ghassan Hamarneh
cs.AI
要旨
大規模な視覚言語モデル、特にStable Diffusion(SD)を用いて、画像編集、画像対応、3D形状生成などの多様な下流タスクにおいて重要な進展が達成されてきた。これらの進展に触発され、本研究では、SLiMeを提案することで、わずか1つの注釈付きサンプルを用いて任意の粒度で画像をセグメンテーションするために、これらの大規模視覚言語モデルを活用する方法を探求する。SLiMeはこの問題を最適化タスクとして定式化する。具体的には、単一の訓練画像とそのセグメンテーションマスクが与えられた場合、まずSDの事前知識から、新たに提案した「重み付き累積自己注意マップ」を含む注意マップを抽出する。次に、抽出された注意マップを用いて、Stable Diffusionのテキスト埋め込みを最適化し、それぞれが訓練画像の単一のセグメント領域を学習するようにする。これらの学習された埋め込みは、注意マップ内でセグメント領域を強調し、それによってセグメンテーションマップを導出することができる。これにより、SLiMeは推論時に、訓練画像のセグメント領域の粒度で、任意の実世界の画像をセグメンテーションすることが可能となる。さらに、利用可能な場合には追加の訓練データ(すなわちfew-shot)を活用することで、SLiMeの性能が向上する。我々は、様々な設計要因を検証するための知識豊富な実験を行い、SLiMeが既存のワンショットおよびfew-shotセグメンテーション手法を凌駕することを示した。
English
Significant strides have been made using large vision-language models, like
Stable Diffusion (SD), for a variety of downstream tasks, including image
editing, image correspondence, and 3D shape generation. Inspired by these
advancements, we explore leveraging these extensive vision-language models for
segmenting images at any desired granularity using as few as one annotated
sample by proposing SLiMe. SLiMe frames this problem as an optimization task.
Specifically, given a single training image and its segmentation mask, we first
extract attention maps, including our novel "weighted accumulated
self-attention map" from the SD prior. Then, using the extracted attention
maps, the text embeddings of Stable Diffusion are optimized such that, each of
them, learn about a single segmented region from the training image. These
learned embeddings then highlight the segmented region in the attention maps,
which in turn can then be used to derive the segmentation map. This enables
SLiMe to segment any real-world image during inference with the granularity of
the segmented region in the training image, using just one example. Moreover,
leveraging additional training data when available, i.e. few-shot, improves the
performance of SLiMe. We carried out a knowledge-rich set of experiments
examining various design factors and showed that SLiMe outperforms other
existing one-shot and few-shot segmentation methods.