SLiMe: Segmenta Como Yo

Resumen

Se han logrado avances significativos utilizando modelos grandes de visión y lenguaje, como Stable Diffusion (SD), para una variedad de tareas posteriores, incluyendo la edición de imágenes, la correspondencia de imágenes y la generación de formas 3D. Inspirados por estos avances, exploramos el aprovechamiento de estos extensos modelos de visión y lenguaje para segmentar imágenes con cualquier nivel de granularidad deseado utilizando tan solo una muestra anotada, proponiendo SLiMe. SLiMe enmarca este problema como una tarea de optimización. Específicamente, dada una única imagen de entrenamiento y su máscara de segmentación, primero extraemos mapas de atención, incluyendo nuestro novedoso "mapa de autoatención acumulada ponderada" a partir del conocimiento previo de SD. Luego, utilizando los mapas de atención extraídos, se optimizan los embeddings de texto de Stable Diffusion de manera que cada uno de ellos aprenda sobre una única región segmentada de la imagen de entrenamiento. Estos embeddings aprendidos resaltan la región segmentada en los mapas de atención, lo que a su vez puede utilizarse para derivar el mapa de segmentación. Esto permite que SLiMe segmenté cualquier imagen del mundo real durante la inferencia con la granularidad de la región segmentada en la imagen de entrenamiento, utilizando solo un ejemplo. Además, aprovechar datos de entrenamiento adicionales cuando están disponibles, es decir, en un enfoque de pocos ejemplos, mejora el rendimiento de SLiMe. Realizamos un conjunto de experimentos ricos en conocimiento que examinaron varios factores de diseño y demostramos que SLiMe supera a otros métodos existentes de segmentación con un solo ejemplo y pocos ejemplos.

English

Significant strides have been made using large vision-language models, like Stable Diffusion (SD), for a variety of downstream tasks, including image editing, image correspondence, and 3D shape generation. Inspired by these advancements, we explore leveraging these extensive vision-language models for segmenting images at any desired granularity using as few as one annotated sample by proposing SLiMe. SLiMe frames this problem as an optimization task. Specifically, given a single training image and its segmentation mask, we first extract attention maps, including our novel "weighted accumulated self-attention map" from the SD prior. Then, using the extracted attention maps, the text embeddings of Stable Diffusion are optimized such that, each of them, learn about a single segmented region from the training image. These learned embeddings then highlight the segmented region in the attention maps, which in turn can then be used to derive the segmentation map. This enables SLiMe to segment any real-world image during inference with the granularity of the segmented region in the training image, using just one example. Moreover, leveraging additional training data when available, i.e. few-shot, improves the performance of SLiMe. We carried out a knowledge-rich set of experiments examining various design factors and showed that SLiMe outperforms other existing one-shot and few-shot segmentation methods.

SLiMe: Segmenta Como Yo

SLiMe: Segment Like Me

Resumen

Support