ChatPaper.aiChatPaper

CLIP en tant que RNN : Segmenter d'innombrables concepts visuels sans effort d'entraînement

CLIP as RNN: Segment Countless Visual Concepts without Training Endeavor

December 12, 2023
Auteurs: Shuyang Sun, Runjia Li, Philip Torr, Xiuye Gu, Siyang Li
cs.AI

Résumé

Les méthodes existantes de segmentation d'images à vocabulaire ouvert nécessitent une étape de fine-tuning sur des annotations de masques et/ou des ensembles de données image-texte. Les étiquettes de masques sont laborieuses à produire, ce qui limite le nombre de catégories dans les ensembles de données de segmentation. Par conséquent, la capacité de vocabulaire ouvert des modèles de langage visuel (VLM) pré-entraînés est fortement réduite après le fine-tuning. Cependant, sans fine-tuning, les VLM entraînés avec une supervision faible image-texte ont tendance à produire des prédictions de masque sous-optimales lorsqu'il y a des requêtes textuelles faisant référence à des concepts inexistants dans l'image. Pour atténuer ces problèmes, nous introduisons un nouveau cadre récurrent qui filtre progressivement les textes non pertinents et améliore la qualité des masques sans effort d'entraînement. L'unité récurrente est un segmenteur en deux étapes construit sur un VLM avec des poids figés. Ainsi, notre modèle conserve l'espace de vocabulaire étendu du VLM et renforce sa capacité de segmentation. Les résultats expérimentaux montrent que notre méthode surpasse non seulement les alternatives sans entraînement, mais aussi celles fine-tunées avec des millions d'échantillons de données supplémentaires, et établit de nouveaux records de pointe pour les tâches de segmentation sémantique zero-shot et de segmentation d'images référencées. Plus précisément, nous améliorons le record actuel de 28,8, 16,0 et 6,9 mIoU sur Pascal VOC, COCO Object et Pascal Context.
English
Existing open-vocabulary image segmentation methods require a fine-tuning step on mask annotations and/or image-text datasets. Mask labels are labor-intensive, which limits the number of categories in segmentation datasets. As a result, the open-vocabulary capacity of pre-trained VLMs is severely reduced after fine-tuning. However, without fine-tuning, VLMs trained under weak image-text supervision tend to make suboptimal mask predictions when there are text queries referring to non-existing concepts in the image. To alleviate these issues, we introduce a novel recurrent framework that progressively filters out irrelevant texts and enhances mask quality without training efforts. The recurrent unit is a two-stage segmenter built upon a VLM with frozen weights. Thus, our model retains the VLM's broad vocabulary space and strengthens its segmentation capability. Experimental results show that our method outperforms not only the training-free counterparts, but also those fine-tuned with millions of additional data samples, and sets new state-of-the-art records for both zero-shot semantic and referring image segmentation tasks. Specifically, we improve the current record by 28.8, 16.0, and 6.9 mIoU on Pascal VOC, COCO Object, and Pascal Context.
PDF190December 15, 2024