Personalizzazione del Modello Segment Anything con un Singolo Esempio

Abstract

Guidato da un pre-addestramento su grandi quantità di dati, il Segment Anything Model (SAM) si è dimostrato un framework potente e promptable, rivoluzionando i modelli di segmentazione. Nonostante la sua generalità, la personalizzazione di SAM per concetti visivi specifici senza l'intervento umano tramite prompt è ancora poco esplorata, ad esempio, segmentare automaticamente il proprio cane in diverse immagini. In questo articolo, proponiamo un approccio di Personalizzazione per SAM senza addestramento, denominato PerSAM. Dato solo un'immagine con una maschera di riferimento, PerSAM localizza prima il concetto target tramite un prior di posizione e lo segmenta in altre immagini o video attraverso tre tecniche: attenzione guidata dal target, prompting semantico del target e raffinamento post-cascata. In questo modo, adattiamo efficacemente SAM per uso privato senza alcun addestramento. Per ulteriormente alleviare l'ambiguità della maschera, presentiamo una variante efficiente di fine-tuning one-shot, PerSAM-F. Congelando l'intero SAM, introduciamo due pesi apprendibili per maschere multi-scala, addestrando solo 2 parametri in 10 secondi per migliorare le prestazioni. Per dimostrare la nostra efficacia, costruiamo un nuovo dataset di segmentazione, PerSeg, per la valutazione personalizzata, e testiamo i nostri metodi sulla segmentazione di oggetti in video con prestazioni competitive. Inoltre, il nostro approccio può anche migliorare DreamBooth per personalizzare Stable Diffusion nella generazione di immagini da testo, eliminando il disturbo dello sfondo per un migliore apprendimento dell'aspetto del target. Il codice è rilasciato su https://github.com/ZrrSkywalker/Personalize-SAM.

English

Driven by large-data pre-training, Segment Anything Model (SAM) has been demonstrated as a powerful and promptable framework, revolutionizing the segmentation models. Despite the generality, customizing SAM for specific visual concepts without man-powered prompting is under explored, e.g., automatically segmenting your pet dog in different images. In this paper, we propose a training-free Personalization approach for SAM, termed as PerSAM. Given only a single image with a reference mask, PerSAM first localizes the target concept by a location prior, and segments it within other images or videos via three techniques: target-guided attention, target-semantic prompting, and cascaded post-refinement. In this way, we effectively adapt SAM for private use without any training. To further alleviate the mask ambiguity, we present an efficient one-shot fine-tuning variant, PerSAM-F. Freezing the entire SAM, we introduce two learnable weights for multi-scale masks, only training 2 parameters within 10 seconds for improved performance. To demonstrate our efficacy, we construct a new segmentation dataset, PerSeg, for personalized evaluation, and test our methods on video object segmentation with competitive performance. Besides, our approach can also enhance DreamBooth to personalize Stable Diffusion for text-to-image generation, which discards the background disturbance for better target appearance learning. Code is released at https://github.com/ZrrSkywalker/Personalize-SAM

Personalizzazione del Modello Segment Anything con un Singolo Esempio

Personalize Segment Anything Model with One Shot

Abstract

Support