SLiMe: Segmenta Come Me

Abstract

Sono stati compiuti progressi significativi utilizzando modelli linguistico-visivi di grandi dimensioni, come Stable Diffusion (SD), per una varietà di attività downstream, tra cui l'editing di immagini, la corrispondenza di immagini e la generazione di forme 3D. Ispirati da questi avanzamenti, esploriamo l'utilizzo di questi estesi modelli linguistico-visivi per segmentare immagini a qualsiasi livello di granularità desiderato, utilizzando un solo campione annotato, proponendo SLiMe. SLiMe inquadra questo problema come un'attività di ottimizzazione. Nello specifico, data un'immagine di addestramento e la sua maschera di segmentazione, estraiamo prima le mappe di attenzione, inclusa la nostra nuova "mappa di auto-attenzione accumulata ponderata", dal prior di SD. Successivamente, utilizzando le mappe di attenzione estratte, gli embedding testuali di Stable Diffusion vengono ottimizzati in modo che ciascuno di essi apprenda una singola regione segmentata dall'immagine di addestramento. Questi embedding appresi evidenziano quindi la regione segmentata nelle mappe di attenzione, che a loro volta possono essere utilizzate per derivare la mappa di segmentazione. Ciò consente a SLiMe di segmentare qualsiasi immagine del mondo reale durante l'inferenza con la granularità della regione segmentata nell'immagine di addestramento, utilizzando un solo esempio. Inoltre, sfruttando ulteriori dati di addestramento quando disponibili, ovvero in modalità few-shot, migliora le prestazioni di SLiMe. Abbiamo condotto una serie di esperimenti ricchi di conoscenza, esaminando vari fattori di progettazione, e abbiamo dimostrato che SLiMe supera altri metodi esistenti di segmentazione one-shot e few-shot.

English

Significant strides have been made using large vision-language models, like Stable Diffusion (SD), for a variety of downstream tasks, including image editing, image correspondence, and 3D shape generation. Inspired by these advancements, we explore leveraging these extensive vision-language models for segmenting images at any desired granularity using as few as one annotated sample by proposing SLiMe. SLiMe frames this problem as an optimization task. Specifically, given a single training image and its segmentation mask, we first extract attention maps, including our novel "weighted accumulated self-attention map" from the SD prior. Then, using the extracted attention maps, the text embeddings of Stable Diffusion are optimized such that, each of them, learn about a single segmented region from the training image. These learned embeddings then highlight the segmented region in the attention maps, which in turn can then be used to derive the segmentation map. This enables SLiMe to segment any real-world image during inference with the granularity of the segmented region in the training image, using just one example. Moreover, leveraging additional training data when available, i.e. few-shot, improves the performance of SLiMe. We carried out a knowledge-rich set of experiments examining various design factors and showed that SLiMe outperforms other existing one-shot and few-shot segmentation methods.

SLiMe: Segmenta Come Me

SLiMe: Segment Like Me

Abstract

Support