Свертки умирают последними: сегментация с открытым словарем с использованием единственной замороженной сверточной модели CLIP
Convolutions Die Hard: Open-Vocabulary Segmentation with Single Frozen Convolutional CLIP
August 4, 2023
Авторы: Qihang Yu, Ju He, Xueqing Deng, Xiaohui Shen, Liang-Chieh Chen
cs.AI
Аннотация
Сегментация с открытым словарем представляет собой сложную задачу, требующую разделения и распознавания объектов из открытого набора категорий. Одним из способов решения этой проблемы является использование многомодальных моделей, таких как CLIP, которые предоставляют признаки изображений и текста в общем пространстве вложений, что устраняет разрыв между распознаванием с закрытым и открытым словарем. Таким образом, существующие методы часто используют двухэтапную структуру для решения задачи, где входные данные сначала проходят через генератор масок, а затем через модель CLIP вместе с предсказанными масками. Этот процесс предполагает многократное извлечение признаков из изображений, что может быть неэффективным и затратным по времени. В отличие от этого, мы предлагаем объединить все в одноэтапную структуру, используя общий замороженный сверточный бэкбон CLIP, что не только значительно упрощает текущий двухэтапный процесс, но и обеспечивает лучший баланс между точностью и затратами. Предложенный FC-CLIP основывается на следующих наблюдениях: замороженный бэкбон CLIP сохраняет способность к классификации с открытым словарем и также может служить мощным генератором масок, а сверточный CLIP хорошо обобщается на более высокое разрешение входных данных, чем то, которое использовалось во время контрастного предобучения на изображениях и тексте. При обучении только на данных COCO panoptic и тестировании в режиме zero-shot, FC-CLIP достигает 26.8 PQ, 16.8 AP и 34.1 mIoU на ADE20K, 18.2 PQ и 27.9 mIoU на Mapillary Vistas, 44.0 PQ, 26.8 AP и 56.2 mIoU на Cityscapes, превосходя предыдущие результаты на +4.2 PQ, +2.4 AP, +4.2 mIoU на ADE20K, +4.0 PQ на Mapillary Vistas и +20.1 PQ на Cityscapes соответственно. Кроме того, время обучения и тестирования FC-CLIP в 7.5 и 6.6 раз быстрее, чем у предыдущих методов, при использовании в 5.9 раз меньшего количества параметров. FC-CLIP также устанавливает новый рекорд производительности на различных наборах данных для семантической сегментации с открытым словарем. Код доступен по адресу: https://github.com/bytedance/fc-clip.
English
Open-vocabulary segmentation is a challenging task requiring segmenting and
recognizing objects from an open set of categories. One way to address this
challenge is to leverage multi-modal models, such as CLIP, to provide image and
text features in a shared embedding space, which bridges the gap between
closed-vocabulary and open-vocabulary recognition. Hence, existing methods
often adopt a two-stage framework to tackle the problem, where the inputs first
go through a mask generator and then through the CLIP model along with the
predicted masks. This process involves extracting features from images multiple
times, which can be ineffective and inefficient. By contrast, we propose to
build everything into a single-stage framework using a shared Frozen
Convolutional CLIP backbone, which not only significantly simplifies the
current two-stage pipeline, but also remarkably yields a better accuracy-cost
trade-off. The proposed FC-CLIP, benefits from the following observations: the
frozen CLIP backbone maintains the ability of open-vocabulary classification
and can also serve as a strong mask generator, and the convolutional CLIP
generalizes well to a larger input resolution than the one used during
contrastive image-text pretraining. When training on COCO panoptic data only
and testing in a zero-shot manner, FC-CLIP achieve 26.8 PQ, 16.8 AP, and 34.1
mIoU on ADE20K, 18.2 PQ, 27.9 mIoU on Mapillary Vistas, 44.0 PQ, 26.8 AP, 56.2
mIoU on Cityscapes, outperforming the prior art by +4.2 PQ, +2.4 AP, +4.2 mIoU
on ADE20K, +4.0 PQ on Mapillary Vistas and +20.1 PQ on Cityscapes,
respectively. Additionally, the training and testing time of FC-CLIP is 7.5x
and 6.6x significantly faster than the same prior art, while using 5.9x fewer
parameters. FC-CLIP also sets a new state-of-the-art performance across various
open-vocabulary semantic segmentation datasets. Code at
https://github.com/bytedance/fc-clip