Personaliseer het Segment Anything Model met één opname

Samenvatting

Aangedreven door grootschalige voorafgaande training, is het Segment Anything Model (SAM) gedemonstreerd als een krachtig en promptbaar raamwerk, wat een revolutie teweegbrengt in segmentatiemodellen. Ondanks de algemeenheid is het aanpassen van SAM voor specifieke visuele concepten zonder menselijke prompting nog onderbelicht, bijvoorbeeld het automatisch segmenteren van je huisdierhond in verschillende afbeeldingen. In dit artikel stellen we een trainingsvrije Personalisatiebenadering voor SAM voor, genaamd PerSAM. Gegeven slechts één afbeelding met een referentiemasker, lokaliseert PerSAM eerst het doelconcept door middel van een locatieprior, en segmenteert het in andere afbeeldingen of video's via drie technieken: doelgeleide aandacht, doel-semantische prompting en gecascadeerde nabewerking. Op deze manier passen we SAM effectief aan voor privégebruik zonder enige training. Om de maskerambiguïteit verder te verlichten, presenteren we een efficiënte one-shot fine-tuning variant, PerSAM-F. Door het gehele SAM te bevriezen, introduceren we twee leerbare gewichten voor multi-schaal maskers, waarbij slechts 2 parameters binnen 10 seconden worden getraind voor verbeterde prestaties. Om onze effectiviteit aan te tonen, construeren we een nieuw segmentatiedataset, PerSeg, voor gepersonaliseerde evaluatie, en testen we onze methoden op video-objectsegmentatie met competitieve prestaties. Daarnaast kan onze aanpak ook DreamBooth verbeteren om Stable Diffusion te personaliseren voor tekst-naar-afbeeldinggeneratie, wat de achtergrondverstoring wegneemt voor een betere doelverschijningsleren. Code is vrijgegeven op https://github.com/ZrrSkywalker/Personalize-SAM.

English

Driven by large-data pre-training, Segment Anything Model (SAM) has been demonstrated as a powerful and promptable framework, revolutionizing the segmentation models. Despite the generality, customizing SAM for specific visual concepts without man-powered prompting is under explored, e.g., automatically segmenting your pet dog in different images. In this paper, we propose a training-free Personalization approach for SAM, termed as PerSAM. Given only a single image with a reference mask, PerSAM first localizes the target concept by a location prior, and segments it within other images or videos via three techniques: target-guided attention, target-semantic prompting, and cascaded post-refinement. In this way, we effectively adapt SAM for private use without any training. To further alleviate the mask ambiguity, we present an efficient one-shot fine-tuning variant, PerSAM-F. Freezing the entire SAM, we introduce two learnable weights for multi-scale masks, only training 2 parameters within 10 seconds for improved performance. To demonstrate our efficacy, we construct a new segmentation dataset, PerSeg, for personalized evaluation, and test our methods on video object segmentation with competitive performance. Besides, our approach can also enhance DreamBooth to personalize Stable Diffusion for text-to-image generation, which discards the background disturbance for better target appearance learning. Code is released at https://github.com/ZrrSkywalker/Personalize-SAM

Personaliseer het Segment Anything Model met één opname

Personalize Segment Anything Model with One Shot

Samenvatting

Support