Personaliza el Modelo Segment Anything con una sola muestra

Resumen

Impulsado por el preentrenamiento con grandes volúmenes de datos, el Segment Anything Model (SAM) se ha demostrado como un marco potente y adaptable, revolucionando los modelos de segmentación. A pesar de su generalidad, la personalización de SAM para conceptos visuales específicos sin intervención manual sigue siendo un área poco explorada, por ejemplo, segmentar automáticamente a tu perro en diferentes imágenes. En este artículo, proponemos un enfoque de Personalización sin entrenamiento para SAM, denominado PerSAM. Dada solo una imagen con una máscara de referencia, PerSAM primero localiza el concepto objetivo mediante un prior de ubicación y lo segmenta en otras imágenes o videos mediante tres técnicas: atención guiada por el objetivo, indicación semántica del objetivo y refinamiento en cascada. De esta manera, adaptamos eficazmente SAM para uso privado sin ningún entrenamiento. Para mitigar aún más la ambigüedad de las máscaras, presentamos una variante eficiente de ajuste fino en una sola toma, PerSAM-F. Congelando todo SAM, introducimos dos pesos aprendibles para máscaras multi-escala, entrenando solo 2 parámetros en 10 segundos para mejorar el rendimiento. Para demostrar nuestra eficacia, construimos un nuevo conjunto de datos de segmentación, PerSeg, para evaluación personalizada, y probamos nuestros métodos en la segmentación de objetos en videos con un rendimiento competitivo. Además, nuestro enfoque también puede mejorar DreamBooth para personalizar Stable Diffusion en la generación de imágenes a partir de texto, eliminando las perturbaciones del fondo para un mejor aprendizaje de la apariencia del objetivo. El código está disponible en https://github.com/ZrrSkywalker/Personalize-SAM.

English

Driven by large-data pre-training, Segment Anything Model (SAM) has been demonstrated as a powerful and promptable framework, revolutionizing the segmentation models. Despite the generality, customizing SAM for specific visual concepts without man-powered prompting is under explored, e.g., automatically segmenting your pet dog in different images. In this paper, we propose a training-free Personalization approach for SAM, termed as PerSAM. Given only a single image with a reference mask, PerSAM first localizes the target concept by a location prior, and segments it within other images or videos via three techniques: target-guided attention, target-semantic prompting, and cascaded post-refinement. In this way, we effectively adapt SAM for private use without any training. To further alleviate the mask ambiguity, we present an efficient one-shot fine-tuning variant, PerSAM-F. Freezing the entire SAM, we introduce two learnable weights for multi-scale masks, only training 2 parameters within 10 seconds for improved performance. To demonstrate our efficacy, we construct a new segmentation dataset, PerSeg, for personalized evaluation, and test our methods on video object segmentation with competitive performance. Besides, our approach can also enhance DreamBooth to personalize Stable Diffusion for text-to-image generation, which discards the background disturbance for better target appearance learning. Code is released at https://github.com/ZrrSkywalker/Personalize-SAM

Personaliza el Modelo Segment Anything con una sola muestra

Personalize Segment Anything Model with One Shot

Resumen

Support