ChatPaper.aiChatPaper

Modelos de Difusión para Segmentación de Vocabulario Abierto con Cero Ejemplos

Diffusion Models for Zero-Shot Open-Vocabulary Segmentation

June 15, 2023
Autores: Laurynas Karazija, Iro Laina, Andrea Vedaldi, Christian Rupprecht
cs.AI

Resumen

La variedad de objetos en el mundo real es prácticamente ilimitada, lo que hace imposible capturarla utilizando modelos entrenados en un conjunto fijo de categorías. Como resultado, en los últimos años, los métodos de vocabulario abierto han despertado el interés de la comunidad. Este artículo propone un nuevo método para la segmentación de vocabulario abierto en escenarios de cero disparos. Trabajos previos se basan principalmente en entrenamiento contrastivo utilizando pares de imagen-texto, aprovechando mecanismos de agrupación para aprender características de imagen que estén alineadas con el lenguaje y bien localizadas. Sin embargo, esto puede introducir ambigüedad, ya que la apariencia visual de imágenes con descripciones similares suele variar. En su lugar, aprovechamos las propiedades generativas de los modelos de difusión a gran escala de texto a imagen para muestrear un conjunto de imágenes de soporte para una categoría textual dada. Esto proporciona una distribución de apariencias para un texto dado, evitando el problema de ambigüedad. Además, proponemos un mecanismo que considera el contexto de fondo de las imágenes muestreadas para localizar mejor los objetos y segmentar directamente el fondo. Demostramos que nuestro método puede utilizarse para anclar varios extractores de características preentrenados con auto-supervisión en lenguaje natural y proporcionar predicciones explicables al mapear de vuelta a regiones en el conjunto de soporte. Nuestra propuesta no requiere entrenamiento, ya que se basa únicamente en componentes preentrenados, y sin embargo, muestra un rendimiento sólido en una variedad de benchmarks de segmentación de vocabulario abierto, obteniendo una ventaja de más del 10% en el benchmark Pascal VOC.
English
The variety of objects in the real world is nearly unlimited and is thus impossible to capture using models trained on a fixed set of categories. As a result, in recent years, open-vocabulary methods have attracted the interest of the community. This paper proposes a new method for zero-shot open-vocabulary segmentation. Prior work largely relies on contrastive training using image-text pairs, leveraging grouping mechanisms to learn image features that are both aligned with language and well-localised. This however can introduce ambiguity as the visual appearance of images with similar captions often varies. Instead, we leverage the generative properties of large-scale text-to-image diffusion models to sample a set of support images for a given textual category. This provides a distribution of appearances for a given text circumventing the ambiguity problem. We further propose a mechanism that considers the contextual background of the sampled images to better localise objects and segment the background directly. We show that our method can be used to ground several existing pre-trained self-supervised feature extractors in natural language and provide explainable predictions by mapping back to regions in the support set. Our proposal is training-free, relying on pre-trained components only, yet, shows strong performance on a range of open-vocabulary segmentation benchmarks, obtaining a lead of more than 10% on the Pascal VOC benchmark.
PDF91December 15, 2024