SLiMe: Segmentar Como Eu

Resumo

Grandes avanços foram alcançados utilizando modelos de visão e linguagem de grande escala, como o Stable Diffusion (SD), para uma variedade de tarefas subsequentes, incluindo edição de imagens, correspondência de imagens e geração de formas 3D. Inspirados por esses progressos, exploramos a utilização desses extensos modelos de visão e linguagem para segmentar imagens em qualquer granularidade desejada, utilizando tão pouco quanto uma amostra anotada, por meio da proposta do SLiMe. O SLiMe enquadra esse problema como uma tarefa de otimização. Especificamente, dada uma única imagem de treinamento e sua máscara de segmentação, primeiro extraímos mapas de atenção, incluindo nosso novo "mapa de auto-atenção acumulada ponderada", a partir do prior do SD. Em seguida, utilizando os mapas de atenção extraídos, os embeddings de texto do Stable Diffusion são otimizados de forma que cada um deles aprenda sobre uma única região segmentada da imagem de treinamento. Esses embeddings aprendidos destacam então a região segmentada nos mapas de atenção, que por sua vez podem ser usados para derivar o mapa de segmentação. Isso permite que o SLiMe segmentar qualquer imagem do mundo real durante a inferência com a granularidade da região segmentada na imagem de treinamento, utilizando apenas um exemplo. Além disso, aproveitar dados de treinamento adicionais, quando disponíveis, ou seja, few-shot, melhora o desempenho do SLiMe. Realizamos um conjunto rico de experimentos examinando vários fatores de design e mostramos que o SLiMe supera outros métodos existentes de segmentação one-shot e few-shot.

English

Significant strides have been made using large vision-language models, like Stable Diffusion (SD), for a variety of downstream tasks, including image editing, image correspondence, and 3D shape generation. Inspired by these advancements, we explore leveraging these extensive vision-language models for segmenting images at any desired granularity using as few as one annotated sample by proposing SLiMe. SLiMe frames this problem as an optimization task. Specifically, given a single training image and its segmentation mask, we first extract attention maps, including our novel "weighted accumulated self-attention map" from the SD prior. Then, using the extracted attention maps, the text embeddings of Stable Diffusion are optimized such that, each of them, learn about a single segmented region from the training image. These learned embeddings then highlight the segmented region in the attention maps, which in turn can then be used to derive the segmentation map. This enables SLiMe to segment any real-world image during inference with the granularity of the segmented region in the training image, using just one example. Moreover, leveraging additional training data when available, i.e. few-shot, improves the performance of SLiMe. We carried out a knowledge-rich set of experiments examining various design factors and showed that SLiMe outperforms other existing one-shot and few-shot segmentation methods.

SLiMe: Segmentar Como Eu

SLiMe: Segment Like Me

Resumo

Support