SLiMe: Сегментируй, как я
SLiMe: Segment Like Me
September 6, 2023
Авторы: Aliasghar Khani, Saeid Asgari Taghanaki, Aditya Sanghi, Ali Mahdavi Amiri, Ghassan Hamarneh
cs.AI
Аннотация
Значительные успехи были достигнуты с использованием крупных моделей, объединяющих зрение и язык, таких как Stable Diffusion (SD), для решения различных задач, включая редактирование изображений, установление соответствий между изображениями и генерацию 3D-форм. Вдохновленные этими достижениями, мы исследуем возможность использования этих обширных моделей для сегментации изображений с любой желаемой детализацией, используя всего один аннотированный образец, предлагая метод SLiMe. SLiMe формулирует эту задачу как задачу оптимизации. В частности, учитывая одно обучающее изображение и его маску сегментации, мы сначала извлекаем карты внимания, включая нашу новую "взвешенную накопленную карту самовнимания", из априорной модели SD. Затем, используя извлеченные карты внимания, оптимизируются текстовые эмбеддинги Stable Diffusion таким образом, что каждый из них изучает отдельную сегментированную область на обучающем изображении. Эти обученные эмбеддинги затем выделяют сегментированную область на картах внимания, которые, в свою очередь, могут быть использованы для получения карты сегментации. Это позволяет SLiMe сегментировать любое реальное изображение во время вывода с детализацией, соответствующей сегментированной области на обучающем изображении, используя всего один пример. Более того, использование дополнительных обучающих данных, когда они доступны, т.е. в условиях few-shot, улучшает производительность SLiMe. Мы провели обширный набор экспериментов, исследуя различные факторы проектирования, и показали, что SLiMe превосходит другие существующие методы сегментации с одним и несколькими примерами.
English
Significant strides have been made using large vision-language models, like
Stable Diffusion (SD), for a variety of downstream tasks, including image
editing, image correspondence, and 3D shape generation. Inspired by these
advancements, we explore leveraging these extensive vision-language models for
segmenting images at any desired granularity using as few as one annotated
sample by proposing SLiMe. SLiMe frames this problem as an optimization task.
Specifically, given a single training image and its segmentation mask, we first
extract attention maps, including our novel "weighted accumulated
self-attention map" from the SD prior. Then, using the extracted attention
maps, the text embeddings of Stable Diffusion are optimized such that, each of
them, learn about a single segmented region from the training image. These
learned embeddings then highlight the segmented region in the attention maps,
which in turn can then be used to derive the segmentation map. This enables
SLiMe to segment any real-world image during inference with the granularity of
the segmented region in the training image, using just one example. Moreover,
leveraging additional training data when available, i.e. few-shot, improves the
performance of SLiMe. We carried out a knowledge-rich set of experiments
examining various design factors and showed that SLiMe outperforms other
existing one-shot and few-shot segmentation methods.