Diffusiemodellen voor Zero-Shot Open-Vocabulary Segmentatie
Diffusion Models for Zero-Shot Open-Vocabulary Segmentation
June 15, 2023
Auteurs: Laurynas Karazija, Iro Laina, Andrea Vedaldi, Christian Rupprecht
cs.AI
Samenvatting
De verscheidenheid aan objecten in de echte wereld is vrijwel onbeperkt en is daardoor onmogelijk vast te leggen met modellen die getraind zijn op een vaste set categorieën. Als gevolg hiervan hebben open-vocabulary-methoden de afgelopen jaren de interesse van de gemeenschap gewekt. Dit artikel stelt een nieuwe methode voor voor zero-shot open-vocabulary-segmentatie. Eerdere werken vertrouwen grotendeels op contrastieve training met behulp van afbeelding-tekst-paren, waarbij groeperingsmechanismen worden gebruikt om beeldkenmerken te leren die zowel op taal zijn afgestemd als goed gelokaliseerd zijn. Dit kan echter ambiguïteit introduceren, aangezien het visuele uiterlijk van afbeeldingen met vergelijkbare bijschriften vaak varieert. In plaats daarvan maken wij gebruik van de generatieve eigenschappen van grootschalige tekst-naar-afbeelding-diffusiemodellen om een set ondersteunende afbeeldingen te bemonsteren voor een gegeven tekstuele categorie. Dit biedt een distributie van uiterlijkheden voor een gegeven tekst, waardoor het ambiguïteitsprobleem wordt omzeild. Wij stellen verder een mechanisme voor dat rekening houdt met de contextuele achtergrond van de bemonsterde afbeeldingen om objecten beter te lokaliseren en de achtergrond direct te segmenteren. Wij tonen aan dat onze methode kan worden gebruikt om verschillende bestaande vooraf getrainde zelf-supervisie-functie-extractors te verankeren in natuurlijke taal en verklaarbare voorspellingen te bieden door terug te mappen naar regio's in de ondersteunende set. Ons voorstel is training-vrij, waarbij alleen gebruik wordt gemaakt van vooraf getrainde componenten, maar toch sterke prestaties laat zien op een reeks open-vocabulary-segmentatiebenchmarks, met een voorsprong van meer dan 10% op de Pascal VOC-benchmark.
English
The variety of objects in the real world is nearly unlimited and is thus
impossible to capture using models trained on a fixed set of categories. As a
result, in recent years, open-vocabulary methods have attracted the interest of
the community. This paper proposes a new method for zero-shot open-vocabulary
segmentation. Prior work largely relies on contrastive training using
image-text pairs, leveraging grouping mechanisms to learn image features that
are both aligned with language and well-localised. This however can introduce
ambiguity as the visual appearance of images with similar captions often
varies. Instead, we leverage the generative properties of large-scale
text-to-image diffusion models to sample a set of support images for a given
textual category. This provides a distribution of appearances for a given text
circumventing the ambiguity problem. We further propose a mechanism that
considers the contextual background of the sampled images to better localise
objects and segment the background directly. We show that our method can be
used to ground several existing pre-trained self-supervised feature extractors
in natural language and provide explainable predictions by mapping back to
regions in the support set. Our proposal is training-free, relying on
pre-trained components only, yet, shows strong performance on a range of
open-vocabulary segmentation benchmarks, obtaining a lead of more than 10% on
the Pascal VOC benchmark.