ChatPaper.aiChatPaper

CLIPをRNNとして:トレーニング不要で無数の視覚概念をセグメント化

CLIP as RNN: Segment Countless Visual Concepts without Training Endeavor

December 12, 2023
著者: Shuyang Sun, Runjia Li, Philip Torr, Xiuye Gu, Siyang Li
cs.AI

要旨

既存のオープン語彙画像セグメンテーション手法では、マスクアノテーションや画像-テキストデータセットを用いたファインチューニングが必要とされる。マスクラベルは人手による作業が多く、セグメンテーションデータセットのカテゴリ数を制限してしまう。その結果、事前学習された視覚言語モデル(VLM)のオープン語彙能力は、ファインチューニング後に大幅に低下する。一方で、ファインチューニングを行わない場合、弱い画像-テキスト監視下で学習されたVLMは、画像内に存在しない概念を指すテキストクエリに対して、最適でないマスク予測を行う傾向がある。これらの課題を緩和するため、我々は関連性の低いテキストを段階的にフィルタリングし、学習を必要とせずにマスク品質を向上させる新しいリカレントフレームワークを提案する。リカレントユニットは、重みが固定されたVLMを基盤とした2段階のセグメンターで構成されている。これにより、我々のモデルはVLMの広範な語彙空間を保持しつつ、セグメンテーション能力を強化する。実験結果は、我々の手法が学習不要の手法を上回るだけでなく、数百万の追加データサンプルでファインチューニングされた手法をも凌駕し、ゼロショット意味セグメンテーションと参照画像セグメンテーションの両タスクにおいて新たな最先端記録を樹立することを示している。具体的には、Pascal VOC、COCO Object、Pascal Contextにおいて、それぞれ28.8、16.0、6.9 mIoUの向上を達成した。
English
Existing open-vocabulary image segmentation methods require a fine-tuning step on mask annotations and/or image-text datasets. Mask labels are labor-intensive, which limits the number of categories in segmentation datasets. As a result, the open-vocabulary capacity of pre-trained VLMs is severely reduced after fine-tuning. However, without fine-tuning, VLMs trained under weak image-text supervision tend to make suboptimal mask predictions when there are text queries referring to non-existing concepts in the image. To alleviate these issues, we introduce a novel recurrent framework that progressively filters out irrelevant texts and enhances mask quality without training efforts. The recurrent unit is a two-stage segmenter built upon a VLM with frozen weights. Thus, our model retains the VLM's broad vocabulary space and strengthens its segmentation capability. Experimental results show that our method outperforms not only the training-free counterparts, but also those fine-tuned with millions of additional data samples, and sets new state-of-the-art records for both zero-shot semantic and referring image segmentation tasks. Specifically, we improve the current record by 28.8, 16.0, and 6.9 mIoU on Pascal VOC, COCO Object, and Pascal Context.
PDF190December 15, 2024