SLiMe: Segmentiere wie ich
SLiMe: Segment Like Me
September 6, 2023
Autoren: Aliasghar Khani, Saeid Asgari Taghanaki, Aditya Sanghi, Ali Mahdavi Amiri, Ghassan Hamarneh
cs.AI
Zusammenfassung
Erhebliche Fortschritte wurden mit großen Vision-Sprach-Modellen wie Stable Diffusion (SD) für eine Vielzahl von nachgelagerten Aufgaben erzielt, darunter Bildbearbeitung, Bildkorrespondenz und 3D-Formgenerierung. Inspiriert von diesen Fortschritten untersuchen wir die Nutzung dieser umfangreichen Vision-Sprach-Modelle zur Segmentierung von Bildern in beliebiger Granularität mit nur einem annotierten Beispiel durch die Einführung von SLiMe. SLiMe formuliert dieses Problem als Optimierungsaufgabe. Konkret extrahieren wir, ausgehend von einem einzelnen Trainingsbild und dessen Segmentierungsmaske, zunächst Aufmerksamkeitskarten, einschließlich unserer neuartigen „gewichteten akkumulierten Selbstaufmerksamkeitskarte“ aus dem SD-Prior. Anschließend werden die Text-Embeddings von Stable Diffusion unter Verwendung der extrahierten Aufmerksamkeitskarten so optimiert, dass jeder von ihnen eine einzelne segmentierte Region aus dem Trainingsbild erlernt. Diese gelernten Embeddings heben dann die segmentierte Region in den Aufmerksamkeitskarten hervor, was wiederum zur Ableitung der Segmentierungsmaske verwendet werden kann. Dies ermöglicht es SLiMe, jedes reale Bild während der Inferenz mit der Granularität der segmentierten Region im Trainingsbild zu segmentieren, wobei nur ein Beispiel verwendet wird. Darüber hinaus verbessert die Nutzung zusätzlicher Trainingsdaten, sofern verfügbar, d.h. Few-Shot, die Leistung von SLiMe. Wir führten eine umfangreiche Reihe von Experimenten durch, in denen verschiedene Designfaktoren untersucht wurden, und zeigten, dass SLiMe andere bestehende One-Shot- und Few-Shot-Segmentierungsmethoden übertrifft.
English
Significant strides have been made using large vision-language models, like
Stable Diffusion (SD), for a variety of downstream tasks, including image
editing, image correspondence, and 3D shape generation. Inspired by these
advancements, we explore leveraging these extensive vision-language models for
segmenting images at any desired granularity using as few as one annotated
sample by proposing SLiMe. SLiMe frames this problem as an optimization task.
Specifically, given a single training image and its segmentation mask, we first
extract attention maps, including our novel "weighted accumulated
self-attention map" from the SD prior. Then, using the extracted attention
maps, the text embeddings of Stable Diffusion are optimized such that, each of
them, learn about a single segmented region from the training image. These
learned embeddings then highlight the segmented region in the attention maps,
which in turn can then be used to derive the segmentation map. This enables
SLiMe to segment any real-world image during inference with the granularity of
the segmented region in the training image, using just one example. Moreover,
leveraging additional training data when available, i.e. few-shot, improves the
performance of SLiMe. We carried out a knowledge-rich set of experiments
examining various design factors and showed that SLiMe outperforms other
existing one-shot and few-shot segmentation methods.