CLIP como RNN: Segmentando Inúmeros Conceitos Visuais sem Esforço de Treinamento
CLIP as RNN: Segment Countless Visual Concepts without Training Endeavor
December 12, 2023
Autores: Shuyang Sun, Runjia Li, Philip Torr, Xiuye Gu, Siyang Li
cs.AI
Resumo
Os métodos existentes de segmentação de imagens de vocabulário aberto exigem uma etapa de ajuste fino em anotações de máscaras e/ou conjuntos de dados de imagem-texto. As etiquetas de máscaras são intensivas em mão de obra, o que limita o número de categorias em conjuntos de dados de segmentação. Como resultado, a capacidade de vocabulário aberto dos VLMs (Modelos de Linguagem Visual) pré-treinados é severamente reduzida após o ajuste fino. No entanto, sem o ajuste fino, os VLMs treinados sob supervisão fraca de imagem-texto tendem a fazer previsões de máscara subótimas quando há consultas de texto que se referem a conceitos inexistentes na imagem. Para aliviar esses problemas, introduzimos uma nova estrutura recorrente que filtra progressivamente textos irrelevantes e melhora a qualidade da máscara sem esforços de treinamento. A unidade recorrente é um segmentador de dois estágios construído sobre um VLM com pesos congelados. Assim, nosso modelo retém o amplo espaço de vocabulário do VLM e fortalece sua capacidade de segmentação. Os resultados experimentais mostram que nosso método supera não apenas as contrapartes sem treinamento, mas também aquelas ajustadas com milhões de amostras de dados adicionais, e estabelece novos recordes de estado da arte para tarefas de segmentação semântica e de referência de imagem zero-shot. Especificamente, melhoramos o recorde atual em 28,8, 16,0 e 6,9 mIoU no Pascal VOC, COCO Object e Pascal Context.
English
Existing open-vocabulary image segmentation methods require a fine-tuning
step on mask annotations and/or image-text datasets. Mask labels are
labor-intensive, which limits the number of categories in segmentation
datasets. As a result, the open-vocabulary capacity of pre-trained VLMs is
severely reduced after fine-tuning. However, without fine-tuning, VLMs trained
under weak image-text supervision tend to make suboptimal mask predictions when
there are text queries referring to non-existing concepts in the image. To
alleviate these issues, we introduce a novel recurrent framework that
progressively filters out irrelevant texts and enhances mask quality without
training efforts. The recurrent unit is a two-stage segmenter built upon a VLM
with frozen weights. Thus, our model retains the VLM's broad vocabulary space
and strengthens its segmentation capability. Experimental results show that our
method outperforms not only the training-free counterparts, but also those
fine-tuned with millions of additional data samples, and sets new
state-of-the-art records for both zero-shot semantic and referring image
segmentation tasks. Specifically, we improve the current record by 28.8, 16.0,
and 6.9 mIoU on Pascal VOC, COCO Object, and Pascal Context.