Modèles de diffusion pour la segmentation ouverte à vocabulaire libre en zéro-shot
Diffusion Models for Zero-Shot Open-Vocabulary Segmentation
June 15, 2023
Auteurs: Laurynas Karazija, Iro Laina, Andrea Vedaldi, Christian Rupprecht
cs.AI
Résumé
La variété des objets dans le monde réel est pratiquement illimitée, ce qui rend impossible leur capture à l'aide de modèles entraînés sur un ensemble fixe de catégories. Par conséquent, ces dernières années, les méthodes à vocabulaire ouvert ont suscité l'intérêt de la communauté. Cet article propose une nouvelle méthode pour la segmentation à vocabulaire ouvert en zéro-shot. Les travaux antérieurs reposent largement sur un apprentissage contrastif utilisant des paires image-texte, exploitant des mécanismes de regroupement pour apprendre des caractéristiques d'image à la fois alignées avec le langage et bien localisées. Cependant, cela peut introduire une ambiguïté, car l'apparence visuelle des images avec des légendes similaires varie souvent. À la place, nous exploitons les propriétés génératives des modèles de diffusion à grande échelle de texte à image pour échantillonner un ensemble d'images de support pour une catégorie textuelle donnée. Cela fournit une distribution d'apparences pour un texte donné, contournant ainsi le problème d'ambiguïté. Nous proposons en outre un mécanisme qui prend en compte le contexte de fond des images échantillonnées pour mieux localiser les objets et segmenter directement l'arrière-plan. Nous montrons que notre méthode peut être utilisée pour ancrer plusieurs extracteurs de caractéristiques auto-supervisés pré-entraînés dans le langage naturel et fournir des prédictions explicables en les mappant à des régions de l'ensemble de support. Notre proposition ne nécessite aucun entraînement, reposant uniquement sur des composants pré-entraînés, et montre pourtant de solides performances sur une gamme de benchmarks de segmentation à vocabulaire ouvert, obtenant une avance de plus de 10 % sur le benchmark Pascal VOC.
English
The variety of objects in the real world is nearly unlimited and is thus
impossible to capture using models trained on a fixed set of categories. As a
result, in recent years, open-vocabulary methods have attracted the interest of
the community. This paper proposes a new method for zero-shot open-vocabulary
segmentation. Prior work largely relies on contrastive training using
image-text pairs, leveraging grouping mechanisms to learn image features that
are both aligned with language and well-localised. This however can introduce
ambiguity as the visual appearance of images with similar captions often
varies. Instead, we leverage the generative properties of large-scale
text-to-image diffusion models to sample a set of support images for a given
textual category. This provides a distribution of appearances for a given text
circumventing the ambiguity problem. We further propose a mechanism that
considers the contextual background of the sampled images to better localise
objects and segment the background directly. We show that our method can be
used to ground several existing pre-trained self-supervised feature extractors
in natural language and provide explainable predictions by mapping back to
regions in the support set. Our proposal is training-free, relying on
pre-trained components only, yet, shows strong performance on a range of
open-vocabulary segmentation benchmarks, obtaining a lead of more than 10% on
the Pascal VOC benchmark.