Convoluties Sterven Moeilijk: Open-Vocabularium Segmentatie met een Enkel Bevroren Convolutioneel CLIP

Samenvatting

Open-vocabulary segmentatie is een uitdagende taak die het segmenteren en herkennen van objecten uit een open set van categorieën vereist. Een manier om deze uitdaging aan te pakken, is door gebruik te maken van multimodale modellen, zoals CLIP, om beeld- en tekstkenmerken te leveren in een gedeelde inbeddingsruimte, wat de kloof tussen gesloten-vocabulaire en open-vocabulaire herkenning overbrugt. Daarom nemen bestaande methoden vaak een tweestaps raamwerk aan om het probleem aan te pakken, waarbij de invoer eerst door een maskergenerator gaat en vervolgens door het CLIP-model samen met de voorspelde maskers. Dit proces omvat het meerdere keren extraheren van kenmerken uit afbeeldingen, wat inefficiënt en ondoeltreffend kan zijn. In tegenstelling hiermee stellen wij voor om alles in een enkelstaps raamwerk te bouwen met behulp van een gedeelde Frozen Convolutional CLIP-backbone, wat niet alleen de huidige tweestaps pijplijn aanzienlijk vereenvoudigt, maar ook opmerkelijk een betere nauwkeurigheid-kosten verhouding oplevert. De voorgestelde FC-CLIP profiteert van de volgende observaties: de bevroren CLIP-backbone behoudt het vermogen voor open-vocabulaire classificatie en kan ook dienen als een sterke maskergenerator, en de convolutionele CLIP generaliseert goed naar een grotere invoerresolutie dan die gebruikt tijdens contrastieve beeld-tekst voorafgaande training. Wanneer getraind op alleen COCO panoptische data en getest op een zero-shot manier, behaalt FC-CLIP 26.8 PQ, 16.8 AP, en 34.1 mIoU op ADE20K, 18.2 PQ, 27.9 mIoU op Mapillary Vistas, 44.0 PQ, 26.8 AP, 56.2 mIoU op Cityscapes, wat de vorige state-of-the-art overtreft met +4.2 PQ, +2.4 AP, +4.2 mIoU op ADE20K, +4.0 PQ op Mapillary Vistas en +20.1 PQ op Cityscapes, respectievelijk. Bovendien is de trainings- en testtijd van FC-CLIP 7.5x en 6.6x aanzienlijk sneller dan dezelfde vorige state-of-the-art, terwijl er 5.9x minder parameters worden gebruikt. FC-CLIP stelt ook een nieuwe state-of-the-art prestatie in op verschillende open-vocabulaire semantische segmentatie datasets. Code beschikbaar op https://github.com/bytedance/fc-clip.

English

Open-vocabulary segmentation is a challenging task requiring segmenting and recognizing objects from an open set of categories. One way to address this challenge is to leverage multi-modal models, such as CLIP, to provide image and text features in a shared embedding space, which bridges the gap between closed-vocabulary and open-vocabulary recognition. Hence, existing methods often adopt a two-stage framework to tackle the problem, where the inputs first go through a mask generator and then through the CLIP model along with the predicted masks. This process involves extracting features from images multiple times, which can be ineffective and inefficient. By contrast, we propose to build everything into a single-stage framework using a shared Frozen Convolutional CLIP backbone, which not only significantly simplifies the current two-stage pipeline, but also remarkably yields a better accuracy-cost trade-off. The proposed FC-CLIP, benefits from the following observations: the frozen CLIP backbone maintains the ability of open-vocabulary classification and can also serve as a strong mask generator, and the convolutional CLIP generalizes well to a larger input resolution than the one used during contrastive image-text pretraining. When training on COCO panoptic data only and testing in a zero-shot manner, FC-CLIP achieve 26.8 PQ, 16.8 AP, and 34.1 mIoU on ADE20K, 18.2 PQ, 27.9 mIoU on Mapillary Vistas, 44.0 PQ, 26.8 AP, 56.2 mIoU on Cityscapes, outperforming the prior art by +4.2 PQ, +2.4 AP, +4.2 mIoU on ADE20K, +4.0 PQ on Mapillary Vistas and +20.1 PQ on Cityscapes, respectively. Additionally, the training and testing time of FC-CLIP is 7.5x and 6.6x significantly faster than the same prior art, while using 5.9x fewer parameters. FC-CLIP also sets a new state-of-the-art performance across various open-vocabulary semantic segmentation datasets. Code at https://github.com/bytedance/fc-clip

Convoluties Sterven Moeilijk: Open-Vocabularium Segmentatie met een Enkel Bevroren Convolutioneel CLIP

Convolutions Die Hard: Open-Vocabulary Segmentation with Single Frozen Convolutional CLIP

Samenvatting

Support