Diffusionsmodelle für Null-Shot-Open-Vocabulary-Segmentierung
Diffusion Models for Zero-Shot Open-Vocabulary Segmentation
June 15, 2023
Autoren: Laurynas Karazija, Iro Laina, Andrea Vedaldi, Christian Rupprecht
cs.AI
Zusammenfassung
Die Vielfalt der Objekte in der realen Welt ist nahezu unbegrenzt und lässt sich daher nicht mit Modellen erfassen, die auf einem festen Satz von Kategorien trainiert wurden. Infolgedessen haben in den letzten Jahren Methoden mit offenem Vokabular das Interesse der Fachgemeinschaft geweckt. Dieses Papier schlägt eine neue Methode für die Null-Shot-Segmentierung mit offenem Vokabular vor. Bisherige Arbeiten stützen sich weitgehend auf kontrastives Training unter Verwendung von Bild-Text-Paaren, wobei Gruppierungsmechanismen genutzt werden, um Bildmerkmale zu erlernen, die sowohl mit der Sprache abgestimmt als auch gut lokalisiert sind. Dies kann jedoch zu Mehrdeutigkeiten führen, da das visuelle Erscheinungsbild von Bildern mit ähnlichen Beschreibungen oft variiert. Stattdessen nutzen wir die generativen Eigenschaften von großskaligen Text-zu-Bild-Diffusionsmodellen, um eine Reihe von Unterstützungsbildern für eine gegebene textuelle Kategorie zu erzeugen. Dies liefert eine Verteilung von Erscheinungsformen für einen gegebenen Text und umgeht das Problem der Mehrdeutigkeit. Darüber hinaus schlagen wir einen Mechanismus vor, der den kontextuellen Hintergrund der erzeugten Bilder berücksichtigt, um Objekte besser zu lokalisieren und den Hintergrund direkt zu segmentieren. Wir zeigen, dass unsere Methode verwendet werden kann, um mehrere bestehende, vortrainierte selbstüberwachte Merkmalsextraktoren in natürlicher Sprache zu verankern und erklärbare Vorhersagen zu liefern, indem auf Regionen im Unterstützungssatz zurückgegriffen wird. Unser Vorschlag ist trainingsfrei und stützt sich ausschließlich auf vortrainierte Komponenten, zeigt jedoch eine starke Leistung bei einer Reihe von Benchmarks für die Segmentierung mit offenem Vokabular und erzielt einen Vorsprung von mehr als 10 % beim Pascal VOC Benchmark.
English
The variety of objects in the real world is nearly unlimited and is thus
impossible to capture using models trained on a fixed set of categories. As a
result, in recent years, open-vocabulary methods have attracted the interest of
the community. This paper proposes a new method for zero-shot open-vocabulary
segmentation. Prior work largely relies on contrastive training using
image-text pairs, leveraging grouping mechanisms to learn image features that
are both aligned with language and well-localised. This however can introduce
ambiguity as the visual appearance of images with similar captions often
varies. Instead, we leverage the generative properties of large-scale
text-to-image diffusion models to sample a set of support images for a given
textual category. This provides a distribution of appearances for a given text
circumventing the ambiguity problem. We further propose a mechanism that
considers the contextual background of the sampled images to better localise
objects and segment the background directly. We show that our method can be
used to ground several existing pre-trained self-supervised feature extractors
in natural language and provide explainable predictions by mapping back to
regions in the support set. Our proposal is training-free, relying on
pre-trained components only, yet, shows strong performance on a range of
open-vocabulary segmentation benchmarks, obtaining a lead of more than 10% on
the Pascal VOC benchmark.