CLIP как РНС: Сегментируйте бесчисленные визуальные концепции без необходимости обучения
CLIP as RNN: Segment Countless Visual Concepts without Training Endeavor
December 12, 2023
Авторы: Shuyang Sun, Runjia Li, Philip Torr, Xiuye Gu, Siyang Li
cs.AI
Аннотация
Существующие методы сегментации изображений с открытым словарём требуют этапа тонкой настройки на аннотациях масок и/или наборах данных "изображение-текст". Создание масок является трудоёмким процессом, что ограничивает количество категорий в наборах данных для сегментации. В результате, способность предварительно обученных моделей визуального языка (VLM) к работе с открытым словарём значительно снижается после тонкой настройки. Однако без тонкой настройки VLM, обученные на слабом надзоре "изображение-текст", склонны давать неоптимальные предсказания масок, когда текстовые запросы ссылаются на несуществующие в изображении концепции. Для смягчения этих проблем мы представляем новую рекуррентную структуру, которая постепенно отфильтровывает нерелевантные тексты и улучшает качество масок без необходимости обучения. Рекуррентный блок представляет собой двухэтапный сегментатор, построенный на основе VLM с замороженными весами. Таким образом, наша модель сохраняет широкое словарное пространство VLM и усиливает её способность к сегментации. Экспериментальные результаты показывают, что наш метод превосходит не только аналоги без обучения, но и те, которые были тонко настроены на миллионах дополнительных образцов данных, устанавливая новые рекорды для задач семантической сегментации с нулевым обучением и сегментации изображений по ссылкам. В частности, мы улучшаем текущие рекорды на 28.8, 16.0 и 6.9 mIoU на Pascal VOC, COCO Object и Pascal Context соответственно.
English
Existing open-vocabulary image segmentation methods require a fine-tuning
step on mask annotations and/or image-text datasets. Mask labels are
labor-intensive, which limits the number of categories in segmentation
datasets. As a result, the open-vocabulary capacity of pre-trained VLMs is
severely reduced after fine-tuning. However, without fine-tuning, VLMs trained
under weak image-text supervision tend to make suboptimal mask predictions when
there are text queries referring to non-existing concepts in the image. To
alleviate these issues, we introduce a novel recurrent framework that
progressively filters out irrelevant texts and enhances mask quality without
training efforts. The recurrent unit is a two-stage segmenter built upon a VLM
with frozen weights. Thus, our model retains the VLM's broad vocabulary space
and strengthens its segmentation capability. Experimental results show that our
method outperforms not only the training-free counterparts, but also those
fine-tuned with millions of additional data samples, and sets new
state-of-the-art records for both zero-shot semantic and referring image
segmentation tasks. Specifically, we improve the current record by 28.8, 16.0,
and 6.9 mIoU on Pascal VOC, COCO Object, and Pascal Context.