Les convolutions ont la vie dure : segmentation à vocabulaire ouvert avec un seul CLIP convolutionnel figé
Convolutions Die Hard: Open-Vocabulary Segmentation with Single Frozen Convolutional CLIP
August 4, 2023
papers.authors: Qihang Yu, Ju He, Xueqing Deng, Xiaohui Shen, Liang-Chieh Chen
cs.AI
papers.abstract
La segmentation à vocabulaire ouvert est une tâche complexe qui nécessite de segmenter et de reconnaître des objets à partir d'un ensemble ouvert de catégories. Une manière de relever ce défi consiste à exploiter des modèles multi-modaux, tels que CLIP, pour fournir des caractéristiques d'image et de texte dans un espace d'embedding partagé, ce qui permet de combler l'écart entre la reconnaissance à vocabulaire fermé et celle à vocabulaire ouvert. Par conséquent, les méthodes existantes adoptent souvent un cadre en deux étapes pour résoudre ce problème : les entrées passent d'abord par un générateur de masques, puis par le modèle CLIP accompagné des masques prédits. Ce processus implique l'extraction répétée de caractéristiques des images, ce qui peut être inefficace et peu performant. En revanche, nous proposons de tout intégrer dans un cadre en une seule étape en utilisant un backbone Frozen Convolutional CLIP partagé, ce qui simplifie considérablement le pipeline actuel en deux étapes et offre un meilleur compromis entre précision et coût. Le FC-CLIP proposé tire parti des observations suivantes : le backbone CLIP gelé conserve la capacité de classification à vocabulaire ouvert et peut également servir de générateur de masques robuste, et le CLIP convolutionnel se généralise bien à une résolution d'entrée plus grande que celle utilisée lors du pré-entraînement contrastif image-texte. Lors de l'entraînement sur les données panoptiques de COCO uniquement et des tests en mode zero-shot, FC-CLIP atteint 26,8 PQ, 16,8 AP et 34,1 mIoU sur ADE20K, 18,2 PQ et 27,9 mIoU sur Mapillary Vistas, 44,0 PQ, 26,8 AP et 56,2 mIoU sur Cityscapes, surpassant l'état de l'art précédent de +4,2 PQ, +2,4 AP, +4,2 mIoU sur ADE20K, +4,0 PQ sur Mapillary Vistas et +20,1 PQ sur Cityscapes, respectivement. De plus, le temps d'entraînement et de test de FC-CLIP est 7,5 fois et 6,6 fois plus rapide que le même état de l'art précédent, tout en utilisant 5,9 fois moins de paramètres. FC-CLIP établit également un nouveau record de performance sur divers ensembles de données de segmentation sémantique à vocabulaire ouvert. Code disponible à l'adresse suivante : https://github.com/bytedance/fc-clip.
English
Open-vocabulary segmentation is a challenging task requiring segmenting and
recognizing objects from an open set of categories. One way to address this
challenge is to leverage multi-modal models, such as CLIP, to provide image and
text features in a shared embedding space, which bridges the gap between
closed-vocabulary and open-vocabulary recognition. Hence, existing methods
often adopt a two-stage framework to tackle the problem, where the inputs first
go through a mask generator and then through the CLIP model along with the
predicted masks. This process involves extracting features from images multiple
times, which can be ineffective and inefficient. By contrast, we propose to
build everything into a single-stage framework using a shared Frozen
Convolutional CLIP backbone, which not only significantly simplifies the
current two-stage pipeline, but also remarkably yields a better accuracy-cost
trade-off. The proposed FC-CLIP, benefits from the following observations: the
frozen CLIP backbone maintains the ability of open-vocabulary classification
and can also serve as a strong mask generator, and the convolutional CLIP
generalizes well to a larger input resolution than the one used during
contrastive image-text pretraining. When training on COCO panoptic data only
and testing in a zero-shot manner, FC-CLIP achieve 26.8 PQ, 16.8 AP, and 34.1
mIoU on ADE20K, 18.2 PQ, 27.9 mIoU on Mapillary Vistas, 44.0 PQ, 26.8 AP, 56.2
mIoU on Cityscapes, outperforming the prior art by +4.2 PQ, +2.4 AP, +4.2 mIoU
on ADE20K, +4.0 PQ on Mapillary Vistas and +20.1 PQ on Cityscapes,
respectively. Additionally, the training and testing time of FC-CLIP is 7.5x
and 6.6x significantly faster than the same prior art, while using 5.9x fewer
parameters. FC-CLIP also sets a new state-of-the-art performance across various
open-vocabulary semantic segmentation datasets. Code at
https://github.com/bytedance/fc-clip