CLIP als RNN: Segmentieren Sie unzählige visuelle Konzepte ohne Trainingsaufwand
CLIP as RNN: Segment Countless Visual Concepts without Training Endeavor
December 12, 2023
Autoren: Shuyang Sun, Runjia Li, Philip Torr, Xiuye Gu, Siyang Li
cs.AI
Zusammenfassung
Bestehende Methoden für die offene Vokabular-Bildsegmentierung erfordern einen Feinabstimmungsschritt auf Maskenannotationen und/oder Bild-Text-Datensätze. Maskenlabels sind arbeitsintensiv, was die Anzahl der Kategorien in Segmentierungsdatensätzen begrenzt. Infolgedessen wird die offene Vokabular-Kapazität vortrainierter visueller Sprachmodelle (VLMs) nach der Feinabstimmung erheblich reduziert. Ohne Feinabstimmung neigen VLMs, die unter schwacher Bild-Text-Aufsicht trainiert wurden, jedoch zu suboptimalen Maskenvorhersagen, wenn Textanfragen Konzepte betreffen, die im Bild nicht vorhanden sind. Um diese Probleme zu mildern, führen wir ein neuartiges rekurrentes Framework ein, das irrelevante Texte schrittweise herausfiltert und die Maskenqualität ohne Trainingsaufwand verbessert. Die rekurrente Einheit ist ein zweistufiger Segmentierer, der auf einem VLM mit eingefrorenen Gewichten basiert. Dadurch behält unser Modell den breiten Vokabularraum des VLMs bei und stärkt gleichzeitig dessen Segmentierungsfähigkeit. Experimentelle Ergebnisse zeigen, dass unsere Methode nicht nur die trainingsfreien Gegenstücke übertrifft, sondern auch solche, die mit Millionen zusätzlicher Datenproben feinabgestimmt wurden, und neue State-of-the-Art-Rekorde sowohl für Zero-Shot-Semantik- als auch für referenzielle Bildsegmentierungsaufgaben setzt. Insbesondere verbessern wir den aktuellen Rekord um 28,8, 16,0 und 6,9 mIoU auf Pascal VOC, COCO Object und Pascal Context.
English
Existing open-vocabulary image segmentation methods require a fine-tuning
step on mask annotations and/or image-text datasets. Mask labels are
labor-intensive, which limits the number of categories in segmentation
datasets. As a result, the open-vocabulary capacity of pre-trained VLMs is
severely reduced after fine-tuning. However, without fine-tuning, VLMs trained
under weak image-text supervision tend to make suboptimal mask predictions when
there are text queries referring to non-existing concepts in the image. To
alleviate these issues, we introduce a novel recurrent framework that
progressively filters out irrelevant texts and enhances mask quality without
training efforts. The recurrent unit is a two-stage segmenter built upon a VLM
with frozen weights. Thus, our model retains the VLM's broad vocabulary space
and strengthens its segmentation capability. Experimental results show that our
method outperforms not only the training-free counterparts, but also those
fine-tuned with millions of additional data samples, and sets new
state-of-the-art records for both zero-shot semantic and referring image
segmentation tasks. Specifically, we improve the current record by 28.8, 16.0,
and 6.9 mIoU on Pascal VOC, COCO Object, and Pascal Context.