CLIP como RNN: Segmenta innumerables conceptos visuales sin esfuerzo de entrenamiento
CLIP as RNN: Segment Countless Visual Concepts without Training Endeavor
December 12, 2023
Autores: Shuyang Sun, Runjia Li, Philip Torr, Xiuye Gu, Siyang Li
cs.AI
Resumen
Los métodos existentes de segmentación de imágenes de vocabulario abierto requieren un paso de ajuste fino en anotaciones de máscaras y/o conjuntos de datos de imagen-texto. Las etiquetas de máscaras son intensivas en mano de obra, lo que limita el número de categorías en los conjuntos de datos de segmentación. Como resultado, la capacidad de vocabulario abierto de los modelos de lenguaje visual (VLMs) preentrenados se reduce severamente después del ajuste fino. Sin embargo, sin ajuste fino, los VLMs entrenados bajo una supervisión débil de imagen-texto tienden a hacer predicciones de máscaras subóptimas cuando hay consultas de texto que se refieren a conceptos inexistentes en la imagen. Para mitigar estos problemas, introducimos un marco recurrente novedoso que filtra progresivamente textos irrelevantes y mejora la calidad de las máscaras sin esfuerzos de entrenamiento. La unidad recurrente es un segmentador de dos etapas construido sobre un VLM con pesos congelados. Por lo tanto, nuestro modelo conserva el amplio espacio de vocabulario del VLM y fortalece su capacidad de segmentación. Los resultados experimentales muestran que nuestro método supera no solo a las contrapartes sin entrenamiento, sino también a aquellas ajustadas con millones de muestras de datos adicionales, y establece nuevos récords de última generación tanto para las tareas de segmentación semántica de cero disparo como para la segmentación de imágenes referenciales. Específicamente, mejoramos el récord actual en 28.8, 16.0 y 6.9 mIoU en Pascal VOC, COCO Object y Pascal Context.
English
Existing open-vocabulary image segmentation methods require a fine-tuning
step on mask annotations and/or image-text datasets. Mask labels are
labor-intensive, which limits the number of categories in segmentation
datasets. As a result, the open-vocabulary capacity of pre-trained VLMs is
severely reduced after fine-tuning. However, without fine-tuning, VLMs trained
under weak image-text supervision tend to make suboptimal mask predictions when
there are text queries referring to non-existing concepts in the image. To
alleviate these issues, we introduce a novel recurrent framework that
progressively filters out irrelevant texts and enhances mask quality without
training efforts. The recurrent unit is a two-stage segmenter built upon a VLM
with frozen weights. Thus, our model retains the VLM's broad vocabulary space
and strengthens its segmentation capability. Experimental results show that our
method outperforms not only the training-free counterparts, but also those
fine-tuned with millions of additional data samples, and sets new
state-of-the-art records for both zero-shot semantic and referring image
segmentation tasks. Specifically, we improve the current record by 28.8, 16.0,
and 6.9 mIoU on Pascal VOC, COCO Object, and Pascal Context.