MaskRIS: Semantische Vervormingsbewuste Gegevensvermeerdering voor Verwijzende Afbeeldingssegmentatie
MaskRIS: Semantic Distortion-aware Data Augmentation for Referring Image Segmentation
November 28, 2024
Auteurs: Minhyun Lee, Seungho Lee, Song Park, Dongyoon Han, Byeongho Heo, Hyunjung Shim
cs.AI
Samenvatting
Het Refererende Beeldsegmentatie (RBS) is een geavanceerde visie-taal taak die het identificeren en segmenteren van objecten binnen een afbeelding omvat zoals beschreven in vrije tekstbeschrijvingen. Terwijl eerdere studies gericht waren op het afstemmen van visuele en taalkundige kenmerken, blijft het verkennen van trainingsmethoden, zoals gegevensaugmentatie, onderbelicht. In dit werk verkennen we effectieve gegevensaugmentatie voor RBS en stellen we een nieuw trainingskader voor genaamd Gemaskerde Refererende Beeldsegmentatie (MaskRBS). We constateren dat de conventionele beeldaugmentaties tekortschieten voor RBS, wat leidt tot prestatievermindering, terwijl eenvoudig willekeurig maskeren de prestaties van RBS aanzienlijk verbetert. MaskRBS maakt gebruik van zowel beeld- als tekstmaskering, gevolgd door Verdraaiingsbewust Contextueel Leren (VCL) om volledig te profiteren van de voordelen van de maskerstrategie. Deze aanpak kan de robuustheid van het model verbeteren ten opzichte van verduisteringen, onvolledige informatie en verschillende taalkundige complexiteiten, resulterend in een aanzienlijke prestatieverbetering. Experimenten tonen aan dat MaskRBS gemakkelijk kan worden toegepast op verschillende RBS-modellen, bestaande methoden overtreft in zowel volledig begeleide als zwak begeleide instellingen. Ten slotte behaalt MaskRBS nieuwe state-of-the-art prestaties op de RefCOCO, RefCOCO+ en RefCOCOg datasets. De code is beschikbaar op https://github.com/naver-ai/maskris.
English
Referring Image Segmentation (RIS) is an advanced vision-language task that
involves identifying and segmenting objects within an image as described by
free-form text descriptions. While previous studies focused on aligning visual
and language features, exploring training techniques, such as data
augmentation, remains underexplored. In this work, we explore effective data
augmentation for RIS and propose a novel training framework called Masked
Referring Image Segmentation (MaskRIS). We observe that the conventional image
augmentations fall short of RIS, leading to performance degradation, while
simple random masking significantly enhances the performance of RIS. MaskRIS
uses both image and text masking, followed by Distortion-aware Contextual
Learning (DCL) to fully exploit the benefits of the masking strategy. This
approach can improve the model's robustness to occlusions, incomplete
information, and various linguistic complexities, resulting in a significant
performance improvement. Experiments demonstrate that MaskRIS can easily be
applied to various RIS models, outperforming existing methods in both fully
supervised and weakly supervised settings. Finally, MaskRIS achieves new
state-of-the-art performance on RefCOCO, RefCOCO+, and RefCOCOg datasets. Code
is available at https://github.com/naver-ai/maskris.