ゼロショット・オープン語彙セグメンテーションのための拡散モデル
Diffusion Models for Zero-Shot Open-Vocabulary Segmentation
June 15, 2023
著者: Laurynas Karazija, Iro Laina, Andrea Vedaldi, Christian Rupprecht
cs.AI
要旨
現実世界における物体の多様性はほぼ無限であり、固定されたカテゴリセットで訓練されたモデルでは捉えきれない。その結果、近年ではオープン・ボキャブラリ手法がコミュニティの関心を集めている。本論文では、ゼロショット・オープン・ボキャブラリセグメンテーションのための新たな手法を提案する。従来の研究は主に、画像とテキストのペアを用いたコントラスティブ訓練に依存し、言語と整合し、かつ良好に局所化された画像特徴を学習するためにグループ化メカニズムを活用してきた。しかし、これでは類似したキャプションを持つ画像の視覚的外観がしばしば異なるため、曖昧さが生じる可能性がある。代わりに、我々は大規模なテキストから画像への拡散モデルの生成特性を活用し、与えられたテキストカテゴリに対するサポート画像セットをサンプリングする。これにより、与えられたテキストに対する外観の分布が提供され、曖昧さの問題を回避する。さらに、サンプリングされた画像の文脈的背景を考慮するメカニズムを提案し、物体をより良く局所化し、背景を直接セグメント化する。我々の手法は、既存の事前訓練された自己教師あり特徴抽出器を自然言語に基づいて接地し、サポートセット内の領域にマッピングすることで説明可能な予測を提供できることを示す。提案手法は訓練不要であり、事前訓練済みのコンポーネントのみに依存しているにもかかわらず、様々なオープン・ボキャブラリセグメンテーションベンチマークで強力な性能を発揮し、Pascal VOCベンチマークでは10%以上のリードを獲得している。
English
The variety of objects in the real world is nearly unlimited and is thus
impossible to capture using models trained on a fixed set of categories. As a
result, in recent years, open-vocabulary methods have attracted the interest of
the community. This paper proposes a new method for zero-shot open-vocabulary
segmentation. Prior work largely relies on contrastive training using
image-text pairs, leveraging grouping mechanisms to learn image features that
are both aligned with language and well-localised. This however can introduce
ambiguity as the visual appearance of images with similar captions often
varies. Instead, we leverage the generative properties of large-scale
text-to-image diffusion models to sample a set of support images for a given
textual category. This provides a distribution of appearances for a given text
circumventing the ambiguity problem. We further propose a mechanism that
considers the contextual background of the sampled images to better localise
objects and segment the background directly. We show that our method can be
used to ground several existing pre-trained self-supervised feature extractors
in natural language and provide explainable predictions by mapping back to
regions in the support set. Our proposal is training-free, relying on
pre-trained components only, yet, shows strong performance on a range of
open-vocabulary segmentation benchmarks, obtaining a lead of more than 10% on
the Pascal VOC benchmark.