Modelos de Difusão para Segmentação de Vocabulário Aberto com Aprendizado Zero

Resumo

A variedade de objetos no mundo real é praticamente ilimitada, sendo assim impossível de capturar usando modelos treinados em um conjunto fixo de categorias. Como resultado, nos últimos anos, métodos de vocabulário aberto têm atraído o interesse da comunidade. Este artigo propõe um novo método para segmentação de vocabulário aberto em zero-shot. Trabalhos anteriores dependem amplamente de treinamento contrastivo usando pares imagem-texto, aproveitando mecanismos de agrupamento para aprender características de imagem que estão alinhadas com a linguagem e bem localizadas. No entanto, isso pode introduzir ambiguidade, pois a aparência visual de imagens com legendas semelhantes frequentemente varia. Em vez disso, aproveitamos as propriedades generativas de modelos de difusão de texto para imagem em grande escala para amostrar um conjunto de imagens de suporte para uma determinada categoria textual. Isso fornece uma distribuição de aparências para um dado texto, contornando o problema de ambiguidade. Além disso, propomos um mecanismo que considera o contexto de fundo das imagens amostradas para melhor localizar objetos e segmentar o fundo diretamente. Mostramos que nosso método pode ser usado para fundamentar vários extratoras de características auto-supervisionados pré-treinados em linguagem natural e fornecer previsões explicáveis mapeando de volta para regiões no conjunto de suporte. Nossa proposta é livre de treinamento, dependendo apenas de componentes pré-treinados, mas mostra um desempenho forte em uma variedade de benchmarks de segmentação de vocabulário aberto, obtendo uma vantagem de mais de 10% no benchmark Pascal VOC.

English

The variety of objects in the real world is nearly unlimited and is thus impossible to capture using models trained on a fixed set of categories. As a result, in recent years, open-vocabulary methods have attracted the interest of the community. This paper proposes a new method for zero-shot open-vocabulary segmentation. Prior work largely relies on contrastive training using image-text pairs, leveraging grouping mechanisms to learn image features that are both aligned with language and well-localised. This however can introduce ambiguity as the visual appearance of images with similar captions often varies. Instead, we leverage the generative properties of large-scale text-to-image diffusion models to sample a set of support images for a given textual category. This provides a distribution of appearances for a given text circumventing the ambiguity problem. We further propose a mechanism that considers the contextual background of the sampled images to better localise objects and segment the background directly. We show that our method can be used to ground several existing pre-trained self-supervised feature extractors in natural language and provide explainable predictions by mapping back to regions in the support set. Our proposal is training-free, relying on pre-trained components only, yet, shows strong performance on a range of open-vocabulary segmentation benchmarks, obtaining a lead of more than 10% on the Pascal VOC benchmark.

Modelos de Difusão para Segmentação de Vocabulário Aberto com Aprendizado Zero

Diffusion Models for Zero-Shot Open-Vocabulary Segmentation

Resumo

Support