ChatPaper.aiChatPaper

CLIP als RNN: Segmentieren Sie unzählige visuelle Konzepte ohne Trainingsaufwand

CLIP as RNN: Segment Countless Visual Concepts without Training Endeavor

December 12, 2023
Autoren: Shuyang Sun, Runjia Li, Philip Torr, Xiuye Gu, Siyang Li
cs.AI

Zusammenfassung

Bestehende Methoden für die offene Vokabular-Bildsegmentierung erfordern einen Feinabstimmungsschritt auf Maskenannotationen und/oder Bild-Text-Datensätze. Maskenlabels sind arbeitsintensiv, was die Anzahl der Kategorien in Segmentierungsdatensätzen begrenzt. Infolgedessen wird die offene Vokabular-Kapazität vortrainierter visueller Sprachmodelle (VLMs) nach der Feinabstimmung erheblich reduziert. Ohne Feinabstimmung neigen VLMs, die unter schwacher Bild-Text-Aufsicht trainiert wurden, jedoch zu suboptimalen Maskenvorhersagen, wenn Textanfragen Konzepte betreffen, die im Bild nicht vorhanden sind. Um diese Probleme zu mildern, führen wir ein neuartiges rekurrentes Framework ein, das irrelevante Texte schrittweise herausfiltert und die Maskenqualität ohne Trainingsaufwand verbessert. Die rekurrente Einheit ist ein zweistufiger Segmentierer, der auf einem VLM mit eingefrorenen Gewichten basiert. Dadurch behält unser Modell den breiten Vokabularraum des VLMs bei und stärkt gleichzeitig dessen Segmentierungsfähigkeit. Experimentelle Ergebnisse zeigen, dass unsere Methode nicht nur die trainingsfreien Gegenstücke übertrifft, sondern auch solche, die mit Millionen zusätzlicher Datenproben feinabgestimmt wurden, und neue State-of-the-Art-Rekorde sowohl für Zero-Shot-Semantik- als auch für referenzielle Bildsegmentierungsaufgaben setzt. Insbesondere verbessern wir den aktuellen Rekord um 28,8, 16,0 und 6,9 mIoU auf Pascal VOC, COCO Object und Pascal Context.
English
Existing open-vocabulary image segmentation methods require a fine-tuning step on mask annotations and/or image-text datasets. Mask labels are labor-intensive, which limits the number of categories in segmentation datasets. As a result, the open-vocabulary capacity of pre-trained VLMs is severely reduced after fine-tuning. However, without fine-tuning, VLMs trained under weak image-text supervision tend to make suboptimal mask predictions when there are text queries referring to non-existing concepts in the image. To alleviate these issues, we introduce a novel recurrent framework that progressively filters out irrelevant texts and enhances mask quality without training efforts. The recurrent unit is a two-stage segmenter built upon a VLM with frozen weights. Thus, our model retains the VLM's broad vocabulary space and strengthens its segmentation capability. Experimental results show that our method outperforms not only the training-free counterparts, but also those fine-tuned with millions of additional data samples, and sets new state-of-the-art records for both zero-shot semantic and referring image segmentation tasks. Specifically, we improve the current record by 28.8, 16.0, and 6.9 mIoU on Pascal VOC, COCO Object, and Pascal Context.
PDF190December 15, 2024