Персонализация модели Segment Anything с помощью одного примера
Personalize Segment Anything Model with One Shot
May 4, 2023
Авторы: Renrui Zhang, Zhengkai Jiang, Ziyu Guo, Shilin Yan, Junting Pan, Hao Dong, Peng Gao, Hongsheng Li
cs.AI
Аннотация
Благодаря предварительному обучению на больших объемах данных, модель Segment Anything Model (SAM) продемонстрировала себя как мощный и управляемый подсказками фреймворк, революционизирующий подходы к сегментации. Несмотря на универсальность, адаптация SAM для конкретных визуальных концепций без ручного ввода подсказок остается малоизученной, например, автоматическая сегментация вашего домашнего питомца на различных изображениях. В данной статье мы предлагаем подход к персонализации SAM без необходимости обучения, названный PerSAM. Имея только одно изображение с эталонной маской, PerSAM сначала локализует целевую концепцию с помощью приоритета местоположения, а затем сегментирует её на других изображениях или видео с использованием трех техник: целеориентированного внимания, семантических подсказок и каскадного пост-уточнения. Таким образом, мы эффективно адаптируем SAM для частного использования без какого-либо обучения. Для дальнейшего устранения неоднозначности масок мы представляем эффективный вариант одношаговой тонкой настройки, PerSAM-F. Замораживая всю модель SAM, мы вводим два обучаемых параметра для масок на разных масштабах, обучая всего 2 параметра за 10 секунд для улучшения производительности. Чтобы продемонстрировать эффективность нашего подхода, мы создали новый набор данных для сегментации, PerSeg, для персонализированной оценки, и протестировали наши методы на сегментации объектов в видео с конкурентоспособными результатами. Кроме того, наш подход также может улучшить DreamBooth для персонализации Stable Diffusion в задаче генерации изображений из текста, устраняя фоновые помехи для лучшего изучения внешнего вида целевого объекта. Код доступен по адресу https://github.com/ZrrSkywalker/Personalize-SAM.
English
Driven by large-data pre-training, Segment Anything Model (SAM) has been
demonstrated as a powerful and promptable framework, revolutionizing the
segmentation models. Despite the generality, customizing SAM for specific
visual concepts without man-powered prompting is under explored, e.g.,
automatically segmenting your pet dog in different images. In this paper, we
propose a training-free Personalization approach for SAM, termed as PerSAM.
Given only a single image with a reference mask, PerSAM first localizes the
target concept by a location prior, and segments it within other images or
videos via three techniques: target-guided attention, target-semantic
prompting, and cascaded post-refinement. In this way, we effectively adapt SAM
for private use without any training. To further alleviate the mask ambiguity,
we present an efficient one-shot fine-tuning variant, PerSAM-F. Freezing the
entire SAM, we introduce two learnable weights for multi-scale masks, only
training 2 parameters within 10 seconds for improved performance. To
demonstrate our efficacy, we construct a new segmentation dataset, PerSeg, for
personalized evaluation, and test our methods on video object segmentation with
competitive performance. Besides, our approach can also enhance DreamBooth to
personalize Stable Diffusion for text-to-image generation, which discards the
background disturbance for better target appearance learning. Code is released
at https://github.com/ZrrSkywalker/Personalize-SAM