SLiMe : Segmente comme moi
SLiMe: Segment Like Me
September 6, 2023
Auteurs: Aliasghar Khani, Saeid Asgari Taghanaki, Aditya Sanghi, Ali Mahdavi Amiri, Ghassan Hamarneh
cs.AI
Résumé
Des progrès significatifs ont été réalisés grâce à l'utilisation de grands modèles vision-langage, tels que Stable Diffusion (SD), pour une variété de tâches en aval, incluant l'édition d'images, la correspondance d'images et la génération de formes 3D. Inspirés par ces avancées, nous explorons l'exploitation de ces modèles vision-langage étendus pour segmenter des images à n'importe quelle granularité souhaitée en utilisant aussi peu qu'un échantillon annoté, en proposant SLiMe. SLiMe formule ce problème comme une tâche d'optimisation. Plus précisément, étant donné une seule image d'entraînement et son masque de segmentation, nous extrayons d'abord des cartes d'attention, y compris notre nouvelle "carte d'auto-attention accumulée pondérée", à partir du prior de SD. Ensuite, en utilisant les cartes d'attention extraites, les embeddings textuels de Stable Diffusion sont optimisés de manière à ce que chacun d'eux apprenne une seule région segmentée de l'image d'entraînement. Ces embeddings appris mettent ensuite en évidence la région segmentée dans les cartes d'attention, qui peuvent alors être utilisées pour dériver la carte de segmentation. Cela permet à SLiMe de segmenter n'importe quelle image du monde réel lors de l'inférence avec la granularité de la région segmentée dans l'image d'entraînement, en utilisant un seul exemple. De plus, l'exploitation de données d'entraînement supplémentaires lorsqu'elles sont disponibles, c'est-à-dire en few-shot, améliore les performances de SLiMe. Nous avons mené un ensemble d'expériences riches en connaissances examinant divers facteurs de conception et avons montré que SLiMe surpasse les autres méthodes existantes de segmentation en one-shot et few-shot.
English
Significant strides have been made using large vision-language models, like
Stable Diffusion (SD), for a variety of downstream tasks, including image
editing, image correspondence, and 3D shape generation. Inspired by these
advancements, we explore leveraging these extensive vision-language models for
segmenting images at any desired granularity using as few as one annotated
sample by proposing SLiMe. SLiMe frames this problem as an optimization task.
Specifically, given a single training image and its segmentation mask, we first
extract attention maps, including our novel "weighted accumulated
self-attention map" from the SD prior. Then, using the extracted attention
maps, the text embeddings of Stable Diffusion are optimized such that, each of
them, learn about a single segmented region from the training image. These
learned embeddings then highlight the segmented region in the attention maps,
which in turn can then be used to derive the segmentation map. This enables
SLiMe to segment any real-world image during inference with the granularity of
the segmented region in the training image, using just one example. Moreover,
leveraging additional training data when available, i.e. few-shot, improves the
performance of SLiMe. We carried out a knowledge-rich set of experiments
examining various design factors and showed that SLiMe outperforms other
existing one-shot and few-shot segmentation methods.