Convoluções Morrem Duro: Segmentação de Vocabulário Aberto com um Único CLIP Convolucional Congelado

Resumo

A segmentação de vocabulário aberto é uma tarefa desafiadora que requer a segmentação e reconhecimento de objetos a partir de um conjunto aberto de categorias. Uma maneira de abordar esse desafio é aproveitar modelos multimodais, como o CLIP, para fornecer características de imagem e texto em um espaço de incorporação compartilhado, o que reduz a lacuna entre o reconhecimento de vocabulário fechado e aberto. Portanto, os métodos existentes frequentemente adotam uma estrutura de duas etapas para resolver o problema, onde as entradas primeiro passam por um gerador de máscaras e depois pelo modelo CLIP juntamente com as máscaras previstas. Esse processo envolve a extração de características das imagens várias vezes, o que pode ser ineficaz e ineficiente. Em contraste, propomos construir tudo em uma estrutura de estágio único usando um backbone Frozen Convolutional CLIP compartilhado, o que não apenas simplifica significativamente o pipeline atual de duas etapas, mas também produz uma melhor relação custo-benefício em termos de precisão. O FC-CLIP proposto se beneficia das seguintes observações: o backbone congelado do CLIP mantém a capacidade de classificação de vocabulário aberto e também pode servir como um forte gerador de máscaras, e o CLIP convolucional generaliza bem para uma resolução de entrada maior do que a usada durante o pré-treinamento contrastivo de imagem-texto. Ao treinar apenas com dados panópticos do COCO e testar de maneira zero-shot, o FC-CLIP alcança 26,8 PQ, 16,8 AP e 34,1 mIoU no ADE20K, 18,2 PQ e 27,9 mIoU no Mapillary Vistas, 44,0 PQ, 26,8 AP e 56,2 mIoU no Cityscapes, superando o estado da arte em +4,2 PQ, +2,4 AP, +4,2 mIoU no ADE20K, +4,0 PQ no Mapillary Vistas e +20,1 PQ no Cityscapes, respectivamente. Além disso, o tempo de treinamento e teste do FC-CLIP é 7,5x e 6,6x mais rápido do que o mesmo estado da arte, enquanto utiliza 5,9x menos parâmetros. O FC-CLIP também estabelece um novo desempenho de ponta em vários conjuntos de dados de segmentação semântica de vocabulário aberto. Código disponível em https://github.com/bytedance/fc-clip.

English

Open-vocabulary segmentation is a challenging task requiring segmenting and recognizing objects from an open set of categories. One way to address this challenge is to leverage multi-modal models, such as CLIP, to provide image and text features in a shared embedding space, which bridges the gap between closed-vocabulary and open-vocabulary recognition. Hence, existing methods often adopt a two-stage framework to tackle the problem, where the inputs first go through a mask generator and then through the CLIP model along with the predicted masks. This process involves extracting features from images multiple times, which can be ineffective and inefficient. By contrast, we propose to build everything into a single-stage framework using a shared Frozen Convolutional CLIP backbone, which not only significantly simplifies the current two-stage pipeline, but also remarkably yields a better accuracy-cost trade-off. The proposed FC-CLIP, benefits from the following observations: the frozen CLIP backbone maintains the ability of open-vocabulary classification and can also serve as a strong mask generator, and the convolutional CLIP generalizes well to a larger input resolution than the one used during contrastive image-text pretraining. When training on COCO panoptic data only and testing in a zero-shot manner, FC-CLIP achieve 26.8 PQ, 16.8 AP, and 34.1 mIoU on ADE20K, 18.2 PQ, 27.9 mIoU on Mapillary Vistas, 44.0 PQ, 26.8 AP, 56.2 mIoU on Cityscapes, outperforming the prior art by +4.2 PQ, +2.4 AP, +4.2 mIoU on ADE20K, +4.0 PQ on Mapillary Vistas and +20.1 PQ on Cityscapes, respectively. Additionally, the training and testing time of FC-CLIP is 7.5x and 6.6x significantly faster than the same prior art, while using 5.9x fewer parameters. FC-CLIP also sets a new state-of-the-art performance across various open-vocabulary semantic segmentation datasets. Code at https://github.com/bytedance/fc-clip

Convoluções Morrem Duro: Segmentação de Vocabulário Aberto com um Único CLIP Convolucional Congelado

Convolutions Die Hard: Open-Vocabulary Segmentation with Single Frozen Convolutional CLIP

Resumo

Support