Personalize o Modelo Segment Anything com Um Único Exemplo

Resumo

Impulsionado pelo pré-treinamento com grandes volumes de dados, o Segment Anything Model (SAM) tem se mostrado uma estrutura poderosa e acionável por prompts, revolucionando os modelos de segmentação. Apesar de sua generalidade, a personalização do SAM para conceitos visuais específicos sem a necessidade de prompts manuais ainda é pouco explorada, como, por exemplo, segmentar automaticamente seu cachorro de estimação em diferentes imagens. Neste artigo, propomos uma abordagem de Personalização sem treinamento para o SAM, denominada PerSAM. Dada apenas uma única imagem com uma máscara de referência, o PerSAM primeiro localiza o conceito alvo por meio de uma prioridade de localização e o segmenta em outras imagens ou vídeos através de três técnicas: atenção guiada pelo alvo, prompting semântico do alvo e refinamento em cascata pós-processamento. Dessa forma, adaptamos efetivamente o SAM para uso privado sem qualquer treinamento. Para mitigar ainda mais a ambiguidade das máscaras, apresentamos uma variante eficiente de ajuste fino em um único passo, o PerSAM-F. Congelando todo o SAM, introduzimos dois pesos aprendíveis para máscaras multi-escala, treinando apenas 2 parâmetros em 10 segundos para melhorar o desempenho. Para demonstrar nossa eficácia, construímos um novo conjunto de dados de segmentação, o PerSeg, para avaliação personalizada, e testamos nossos métodos em segmentação de objetos em vídeos com desempenho competitivo. Além disso, nossa abordagem também pode aprimorar o DreamBooth para personalizar o Stable Diffusion na geração de imagens a partir de texto, eliminando a interferência do fundo para um melhor aprendizado da aparência do alvo. O código está disponível em https://github.com/ZrrSkywalker/Personalize-SAM.

English

Driven by large-data pre-training, Segment Anything Model (SAM) has been demonstrated as a powerful and promptable framework, revolutionizing the segmentation models. Despite the generality, customizing SAM for specific visual concepts without man-powered prompting is under explored, e.g., automatically segmenting your pet dog in different images. In this paper, we propose a training-free Personalization approach for SAM, termed as PerSAM. Given only a single image with a reference mask, PerSAM first localizes the target concept by a location prior, and segments it within other images or videos via three techniques: target-guided attention, target-semantic prompting, and cascaded post-refinement. In this way, we effectively adapt SAM for private use without any training. To further alleviate the mask ambiguity, we present an efficient one-shot fine-tuning variant, PerSAM-F. Freezing the entire SAM, we introduce two learnable weights for multi-scale masks, only training 2 parameters within 10 seconds for improved performance. To demonstrate our efficacy, we construct a new segmentation dataset, PerSeg, for personalized evaluation, and test our methods on video object segmentation with competitive performance. Besides, our approach can also enhance DreamBooth to personalize Stable Diffusion for text-to-image generation, which discards the background disturbance for better target appearance learning. Code is released at https://github.com/ZrrSkywalker/Personalize-SAM

Personalize o Modelo Segment Anything com Um Único Exemplo

Personalize Segment Anything Model with One Shot

Resumo

Support