Modelli di Diffusione per la Segmentazione Open-Vocabulary in Zero-Shot

Abstract

La varietà di oggetti nel mondo reale è praticamente illimitata e quindi impossibile da catturare utilizzando modelli addestrati su un insieme fisso di categorie. Di conseguenza, negli ultimi anni, i metodi a vocabolario aperto hanno attirato l'interesse della comunità. Questo articolo propone un nuovo metodo per la segmentazione zero-shot a vocabolario aperto. I lavori precedenti si basano principalmente su un addestramento contrastivo utilizzando coppie immagine-testo, sfruttando meccanismi di raggruppamento per apprendere caratteristiche delle immagini che siano sia allineate con il linguaggio che ben localizzate. Tuttavia, ciò può introdurre ambiguità poiché l'aspetto visivo delle immagini con didascalie simili spesso varia. Invece, sfruttiamo le proprietà generative dei modelli di diffusione testo-immagine su larga scala per campionare un insieme di immagini di supporto per una determinata categoria testuale. Questo fornisce una distribuzione di aspetti per un dato testo, aggirando il problema dell'ambiguità. Proponiamo inoltre un meccanismo che considera il contesto di sfondo delle immagini campionate per localizzare meglio gli oggetti e segmentare direttamente lo sfondo. Dimostriamo che il nostro metodo può essere utilizzato per ancorare diversi estrattori di caratteristiche pre-addestrati auto-supervisionati al linguaggio naturale e fornire previsioni spiegabili mappandole alle regioni nell'insieme di supporto. La nostra proposta è priva di addestramento, basandosi esclusivamente su componenti pre-addestrati, eppure mostra prestazioni solide su una gamma di benchmark di segmentazione a vocabolario aperto, ottenendo un vantaggio di oltre il 10% sul benchmark Pascal VOC.

English

The variety of objects in the real world is nearly unlimited and is thus impossible to capture using models trained on a fixed set of categories. As a result, in recent years, open-vocabulary methods have attracted the interest of the community. This paper proposes a new method for zero-shot open-vocabulary segmentation. Prior work largely relies on contrastive training using image-text pairs, leveraging grouping mechanisms to learn image features that are both aligned with language and well-localised. This however can introduce ambiguity as the visual appearance of images with similar captions often varies. Instead, we leverage the generative properties of large-scale text-to-image diffusion models to sample a set of support images for a given textual category. This provides a distribution of appearances for a given text circumventing the ambiguity problem. We further propose a mechanism that considers the contextual background of the sampled images to better localise objects and segment the background directly. We show that our method can be used to ground several existing pre-trained self-supervised feature extractors in natural language and provide explainable predictions by mapping back to regions in the support set. Our proposal is training-free, relying on pre-trained components only, yet, shows strong performance on a range of open-vocabulary segmentation benchmarks, obtaining a lead of more than 10% on the Pascal VOC benchmark.

Modelli di Diffusione per la Segmentazione Open-Vocabulary in Zero-Shot

Diffusion Models for Zero-Shot Open-Vocabulary Segmentation

Abstract

Support