ChatPaper.aiChatPaper

CLIP als RNN: Ontelbare visuele concepten segmenteren zonder trainingsinspanning

CLIP as RNN: Segment Countless Visual Concepts without Training Endeavor

December 12, 2023
Auteurs: Shuyang Sun, Runjia Li, Philip Torr, Xiuye Gu, Siyang Li
cs.AI

Samenvatting

Bestaande methoden voor open-vocabulary beeldsegmentatie vereisen een fine-tuning stap op maskerannotaties en/of beeld-tekst datasets. Maskerlabels zijn arbeidsintensief, wat het aantal categorieën in segmentatiedatasets beperkt. Als gevolg hiervan wordt de open-vocabulary capaciteit van vooraf getrainde visuele taalmodellen (VLMs) ernstig verminderd na fine-tuning. Zonder fine-tuning hebben VLMs die getraind zijn onder zwakke beeld-tekst supervisie echter de neiging om suboptimale maskervoorspellingen te maken wanneer er tekstqueries zijn die verwijzen naar niet-bestaande concepten in het beeld. Om deze problemen te verlichten, introduceren we een nieuw recurrent raamwerk dat geleidelijk irrelevante teksten filtert en de maskerkwaliteit verbetert zonder trainingsinspanningen. De recurrent unit is een tweestaps segmentatie-eenheid gebouwd op een VLM met bevroren gewichten. Hierdoor behoudt ons model de brede vocabulaire ruimte van de VLM en versterkt het zijn segmentatievermogen. Experimentele resultaten tonen aan dat onze methode niet alleen de trainingsvrije tegenhangers overtreft, maar ook die welke zijn fine-tuned met miljoenen extra data samples, en nieuwe state-of-the-art records vestigt voor zowel zero-shot semantische als verwijzende beeldsegmentatietaken. Specifiek verbeteren we het huidige record met 28,8, 16,0 en 6,9 mIoU op Pascal VOC, COCO Object en Pascal Context.
English
Existing open-vocabulary image segmentation methods require a fine-tuning step on mask annotations and/or image-text datasets. Mask labels are labor-intensive, which limits the number of categories in segmentation datasets. As a result, the open-vocabulary capacity of pre-trained VLMs is severely reduced after fine-tuning. However, without fine-tuning, VLMs trained under weak image-text supervision tend to make suboptimal mask predictions when there are text queries referring to non-existing concepts in the image. To alleviate these issues, we introduce a novel recurrent framework that progressively filters out irrelevant texts and enhances mask quality without training efforts. The recurrent unit is a two-stage segmenter built upon a VLM with frozen weights. Thus, our model retains the VLM's broad vocabulary space and strengthens its segmentation capability. Experimental results show that our method outperforms not only the training-free counterparts, but also those fine-tuned with millions of additional data samples, and sets new state-of-the-art records for both zero-shot semantic and referring image segmentation tasks. Specifically, we improve the current record by 28.8, 16.0, and 6.9 mIoU on Pascal VOC, COCO Object, and Pascal Context.
PDF190December 15, 2024