ChatPaper.aiChatPaper

SLiMe: Segmenteer Zoals Ik

SLiMe: Segment Like Me

September 6, 2023
Auteurs: Aliasghar Khani, Saeid Asgari Taghanaki, Aditya Sanghi, Ali Mahdavi Amiri, Ghassan Hamarneh
cs.AI

Samenvatting

Er zijn aanzienlijke vooruitgangen geboekt met behulp van grote visie-taalmodellen, zoals Stable Diffusion (SD), voor een verscheidenheid aan downstream taken, waaronder beeldbewerking, beeldcorrespondentie en 3D-vormgeneratie. Geïnspireerd door deze ontwikkelingen, onderzoeken we het benutten van deze uitgebreide visie-taalmodellen voor het segmenteren van afbeeldingen op elke gewenste granulariteit met slechts één geannoteerd voorbeeld door SLiMe voor te stellen. SLiMe benadert dit probleem als een optimalisatietaak. Specifiek, gegeven een enkele trainingsafbeelding en zijn segmentatiemasker, extraheren we eerst aandachtkaarten, inclusief onze nieuwe "gewogen geaccumuleerde zelf-aandachtskaart" uit de SD-prior. Vervolgens worden de tekst-embeddingen van Stable Diffusion geoptimaliseerd met behulp van de geëxtraheerde aandachtkaarten, zodat elk van hen leert over een enkel gesegmenteerd gebied uit de trainingsafbeelding. Deze geleerde embeddingen markeren vervolgens het gesegmenteerde gebied in de aandachtkaarten, wat op zijn beurt kan worden gebruikt om het segmentatiemasker af te leiden. Hierdoor kan SLiMe elke real-world afbeelding tijdens inferentie segmenteren met de granulariteit van het gesegmenteerde gebied in de trainingsafbeelding, met slechts één voorbeeld. Bovendien verbetert het benutten van aanvullende trainingsgegevens, indien beschikbaar, d.w.z. few-shot, de prestaties van SLiMe. We hebben een kennisrijke reeks experimenten uitgevoerd waarin verschillende ontwerpfactoren werden onderzocht en toonden aan dat SLiMe andere bestaande one-shot en few-shot segmentatiemethoden overtreft.
English
Significant strides have been made using large vision-language models, like Stable Diffusion (SD), for a variety of downstream tasks, including image editing, image correspondence, and 3D shape generation. Inspired by these advancements, we explore leveraging these extensive vision-language models for segmenting images at any desired granularity using as few as one annotated sample by proposing SLiMe. SLiMe frames this problem as an optimization task. Specifically, given a single training image and its segmentation mask, we first extract attention maps, including our novel "weighted accumulated self-attention map" from the SD prior. Then, using the extracted attention maps, the text embeddings of Stable Diffusion are optimized such that, each of them, learn about a single segmented region from the training image. These learned embeddings then highlight the segmented region in the attention maps, which in turn can then be used to derive the segmentation map. This enables SLiMe to segment any real-world image during inference with the granularity of the segmented region in the training image, using just one example. Moreover, leveraging additional training data when available, i.e. few-shot, improves the performance of SLiMe. We carried out a knowledge-rich set of experiments examining various design factors and showed that SLiMe outperforms other existing one-shot and few-shot segmentation methods.
PDF305December 15, 2024