ChatPaper.aiChatPaper

Personalisierung des Segment Anything Modells mit einem einzigen Beispiel

Personalize Segment Anything Model with One Shot

May 4, 2023
Autoren: Renrui Zhang, Zhengkai Jiang, Ziyu Guo, Shilin Yan, Junting Pan, Hao Dong, Peng Gao, Hongsheng Li
cs.AI

Zusammenfassung

Angetrieben durch das Pre-Training mit großen Datenmengen hat sich das Segment Anything Model (SAM) als ein leistungsstarkes und promptfähiges Framework erwiesen, das die Segmentierungsmodelle revolutioniert. Trotz seiner Allgemeingültigkeit ist die Anpassung von SAM für spezifische visuelle Konzepte ohne manuelle Prompting-Unterstützung noch wenig erforscht, z.B. die automatische Segmentierung des eigenen Haustierhundes in verschiedenen Bildern. In diesem Artikel schlagen wir einen trainingsfreien Personalisierungsansatz für SAM vor, der als PerSAM bezeichnet wird. Mit nur einem einzelnen Bild und einer Referenzmaske lokalisiert PerSAM zunächst das Zielkonzept durch eine Lokalisierungsprämisse und segmentiert es in anderen Bildern oder Videos mittels drei Techniken: zielgeführtes Attention, zielsemantisches Prompting und kaskadierter Post-Refinement. Auf diese Weise passen wir SAM effektiv für den privaten Gebrauch an, ohne jegliches Training. Um die Maskenunschärfe weiter zu verringern, präsentieren wir eine effiziente One-Shot-Fine-Tuning-Variante, PerSAM-F. Indem wir das gesamte SAM einfrieren, führen wir zwei lernbare Gewichte für Multi-Scale-Masken ein und trainieren nur 2 Parameter innerhalb von 10 Sekunden für eine verbesserte Leistung. Um unsere Wirksamkeit zu demonstrieren, erstellen wir einen neuen Segmentierungsdatensatz, PerSeg, für die personalisierte Bewertung und testen unsere Methoden auf der Video-Objektsegmentierung mit wettbewerbsfähiger Leistung. Darüber hinaus kann unser Ansatz auch DreamBooth verbessern, um Stable Diffusion für die Text-zu-Bild-Generierung zu personalisieren, wodurch die Hintergrundstörung für ein besseres Erscheinungslernen des Ziels eliminiert wird. Der Code ist unter https://github.com/ZrrSkywalker/Personalize-SAM verfügbar.
English
Driven by large-data pre-training, Segment Anything Model (SAM) has been demonstrated as a powerful and promptable framework, revolutionizing the segmentation models. Despite the generality, customizing SAM for specific visual concepts without man-powered prompting is under explored, e.g., automatically segmenting your pet dog in different images. In this paper, we propose a training-free Personalization approach for SAM, termed as PerSAM. Given only a single image with a reference mask, PerSAM first localizes the target concept by a location prior, and segments it within other images or videos via three techniques: target-guided attention, target-semantic prompting, and cascaded post-refinement. In this way, we effectively adapt SAM for private use without any training. To further alleviate the mask ambiguity, we present an efficient one-shot fine-tuning variant, PerSAM-F. Freezing the entire SAM, we introduce two learnable weights for multi-scale masks, only training 2 parameters within 10 seconds for improved performance. To demonstrate our efficacy, we construct a new segmentation dataset, PerSeg, for personalized evaluation, and test our methods on video object segmentation with competitive performance. Besides, our approach can also enhance DreamBooth to personalize Stable Diffusion for text-to-image generation, which discards the background disturbance for better target appearance learning. Code is released at https://github.com/ZrrSkywalker/Personalize-SAM
PDF91December 15, 2024