ChatPaper.aiChatPaper

Convolutions Die Hard: Offene Vokabular-Segmentierung mit einem einzigen eingefrorenen Convolutional CLIP

Convolutions Die Hard: Open-Vocabulary Segmentation with Single Frozen Convolutional CLIP

August 4, 2023
papers.authors: Qihang Yu, Ju He, Xueqing Deng, Xiaohui Shen, Liang-Chieh Chen
cs.AI

papers.abstract

Die Open-Vocabulary-Segmentierung ist eine anspruchsvolle Aufgabe, bei der Objekte aus einer offenen Menge von Kategorien segmentiert und erkannt werden müssen. Eine Möglichkeit, diese Herausforderung zu bewältigen, besteht darin, multimodale Modelle wie CLIP zu nutzen, um Bild- und Textmerkmale in einem gemeinsamen Einbettungsraum bereitzustellen, wodurch die Lücke zwischen der Closed-Vocabulary- und der Open-Vocabulary-Erkennung überbrückt wird. Daher verwenden bestehende Methoden oft ein zweistufiges Framework, um das Problem zu lösen, bei dem die Eingaben zunächst einen Maskengenerator durchlaufen und dann zusammen mit den vorhergesagten Masken durch das CLIP-Modell verarbeitet werden. Dieser Prozess beinhaltet die mehrfache Extraktion von Merkmalen aus Bildern, was ineffektiv und ineffizient sein kann. Im Gegensatz dazu schlagen wir vor, alles in ein einstufiges Framework zu integrieren, das einen gemeinsamen Frozen Convolutional CLIP-Backbone verwendet. Dies vereinfacht nicht nur den aktuellen zweistufigen Prozess erheblich, sondern führt auch zu einem deutlich besseren Kompromiss zwischen Genauigkeit und Kosten. Das vorgeschlagene FC-CLIP profitiert von den folgenden Beobachtungen: Der eingefrorene CLIP-Backbone behält die Fähigkeit zur Open-Vocabulary-Klassifizierung bei und kann auch als starker Maskengenerator dienen, und das konvolutionale CLIP verallgemeinert gut auf eine größere Eingabeauflösung als diejenige, die während des kontrastiven Bild-Text-Pretrainings verwendet wurde. Wenn FC-CLIP nur auf COCO-Panoptic-Daten trainiert und auf Null-Shot-Weise getestet wird, erreicht es 26,8 PQ, 16,8 AP und 34,1 mIoU auf ADE20K, 18,2 PQ und 27,9 mIoU auf Mapillary Vistas sowie 44,0 PQ, 26,8 AP und 56,2 mIoU auf Cityscapes, womit es den bisherigen Stand der Technik um +4,2 PQ, +2,4 AP und +4,2 mIoU auf ADE20K, +4,0 PQ auf Mapillary Vistas und +20,1 PQ auf Cityscapes übertrifft. Darüber hinaus ist die Trainings- und Testzeit von FC-CLIP 7,5x bzw. 6,6x deutlich schneller als beim gleichen Stand der Technik, während 5,9x weniger Parameter verwendet werden. FC-CLIP setzt auch neue Maßstäbe in der Leistung über verschiedene Open-Vocabulary-Semantik-Segmentierungsdatensätze hinweg. Code unter https://github.com/bytedance/fc-clip.
English
Open-vocabulary segmentation is a challenging task requiring segmenting and recognizing objects from an open set of categories. One way to address this challenge is to leverage multi-modal models, such as CLIP, to provide image and text features in a shared embedding space, which bridges the gap between closed-vocabulary and open-vocabulary recognition. Hence, existing methods often adopt a two-stage framework to tackle the problem, where the inputs first go through a mask generator and then through the CLIP model along with the predicted masks. This process involves extracting features from images multiple times, which can be ineffective and inefficient. By contrast, we propose to build everything into a single-stage framework using a shared Frozen Convolutional CLIP backbone, which not only significantly simplifies the current two-stage pipeline, but also remarkably yields a better accuracy-cost trade-off. The proposed FC-CLIP, benefits from the following observations: the frozen CLIP backbone maintains the ability of open-vocabulary classification and can also serve as a strong mask generator, and the convolutional CLIP generalizes well to a larger input resolution than the one used during contrastive image-text pretraining. When training on COCO panoptic data only and testing in a zero-shot manner, FC-CLIP achieve 26.8 PQ, 16.8 AP, and 34.1 mIoU on ADE20K, 18.2 PQ, 27.9 mIoU on Mapillary Vistas, 44.0 PQ, 26.8 AP, 56.2 mIoU on Cityscapes, outperforming the prior art by +4.2 PQ, +2.4 AP, +4.2 mIoU on ADE20K, +4.0 PQ on Mapillary Vistas and +20.1 PQ on Cityscapes, respectively. Additionally, the training and testing time of FC-CLIP is 7.5x and 6.6x significantly faster than the same prior art, while using 5.9x fewer parameters. FC-CLIP also sets a new state-of-the-art performance across various open-vocabulary semantic segmentation datasets. Code at https://github.com/bytedance/fc-clip
PDF130December 15, 2024