MaskRIS : Augmentation de données consciente de la distorsion sémantique pour la segmentation d'images de référence
MaskRIS: Semantic Distortion-aware Data Augmentation for Referring Image Segmentation
November 28, 2024
Auteurs: Minhyun Lee, Seungho Lee, Song Park, Dongyoon Han, Byeongho Heo, Hyunjung Shim
cs.AI
Résumé
La segmentation d'image référentielle (RIS) est une tâche avancée en vision par ordinateur qui consiste à identifier et segmenter des objets dans une image tels que décrits par des descriptions textuelles libres. Alors que les études précédentes se sont concentrées sur l'alignement des caractéristiques visuelles et linguistiques, l'exploration des techniques d'entraînement, telles que l'augmentation de données, reste peu explorée. Dans ce travail, nous explorons une augmentation de données efficace pour la RIS et proposons un nouveau cadre d'entraînement appelé Segmentation d'Image Référentielle Masquée (MaskRIS). Nous observons que les augmentations d'image conventionnelles sont insuffisantes pour la RIS, entraînant une dégradation des performances, tandis qu'un simple masquage aléatoire améliore significativement les performances de la RIS. MaskRIS utilise à la fois le masquage d'image et de texte, suivi par un Apprentissage Contextuel Sensible à la Distorsion (DCL) pour exploiter pleinement les avantages de la stratégie de masquage. Cette approche peut améliorer la robustesse du modèle aux occlusions, aux informations incomplètes et aux diverses complexités linguistiques, entraînant une amélioration significative des performances. Les expériences démontrent que MaskRIS peut facilement être appliqué à divers modèles de RIS, surpassant les méthodes existantes dans des contextes entièrement supervisés et faiblement supervisés. Enfin, MaskRIS atteint de nouvelles performances de pointe sur les ensembles de données RefCOCO, RefCOCO+ et RefCOCOg. Le code est disponible sur https://github.com/naver-ai/maskris.
English
Referring Image Segmentation (RIS) is an advanced vision-language task that
involves identifying and segmenting objects within an image as described by
free-form text descriptions. While previous studies focused on aligning visual
and language features, exploring training techniques, such as data
augmentation, remains underexplored. In this work, we explore effective data
augmentation for RIS and propose a novel training framework called Masked
Referring Image Segmentation (MaskRIS). We observe that the conventional image
augmentations fall short of RIS, leading to performance degradation, while
simple random masking significantly enhances the performance of RIS. MaskRIS
uses both image and text masking, followed by Distortion-aware Contextual
Learning (DCL) to fully exploit the benefits of the masking strategy. This
approach can improve the model's robustness to occlusions, incomplete
information, and various linguistic complexities, resulting in a significant
performance improvement. Experiments demonstrate that MaskRIS can easily be
applied to various RIS models, outperforming existing methods in both fully
supervised and weakly supervised settings. Finally, MaskRIS achieves new
state-of-the-art performance on RefCOCO, RefCOCO+, and RefCOCOg datasets. Code
is available at https://github.com/naver-ai/maskris.Summary
AI-Generated Summary