MaskRIS: Semantikverzerrungsaware Datenvermehrung für die Segmentierung von Referenzbildern
MaskRIS: Semantic Distortion-aware Data Augmentation for Referring Image Segmentation
November 28, 2024
Autoren: Minhyun Lee, Seungho Lee, Song Park, Dongyoon Han, Byeongho Heo, Hyunjung Shim
cs.AI
Zusammenfassung
Die Maskierte Bildsegmentierung (Maskierte Bildsegmentierung, MaskRIS) ist eine fortgeschrittene Aufgabe der Bild-Sprache, bei der die Identifizierung und Segmentierung von Objekten innerhalb eines Bildes anhand von Freiformtextbeschreibungen erfolgt. Während frühere Studien darauf abzielten, visuelle und sprachliche Merkmale abzugleichen, bleibt die Erforschung von Schulungstechniken wie der Datenanreicherung unterbelichtet. In dieser Arbeit untersuchen wir effektive Datenanreicherung für die maskierte Bildsegmentierung und schlagen einen neuartigen Schulungsrahmen namens Maskierte Bildsegmentierung (MaskRIS) vor. Wir stellen fest, dass herkömmliche Bildanreicherungen bei der maskierten Bildsegmentierung nicht ausreichen und zu einer Leistungsverschlechterung führen, während einfaches zufälliges Maskieren die Leistung der maskierten Bildsegmentierung signifikant verbessert. MaskRIS verwendet sowohl Bild- als auch Textmaskierung, gefolgt von einer verzerrungsbewussten kontextuellen Lernmethode (DCL), um die Vorteile der Maskierungsstrategie voll auszuschöpfen. Dieser Ansatz kann die Robustheit des Modells gegenüber Verdeckungen, unvollständigen Informationen und verschiedenen sprachlichen Komplexitäten verbessern, was zu einer signifikanten Leistungssteigerung führt. Experimente zeigen, dass MaskRIS leicht auf verschiedene Modelle der maskierten Bildsegmentierung angewendet werden kann und bestehende Methoden sowohl in vollständig überwachten als auch schwach überwachten Umgebungen übertrifft. Schließlich erzielt MaskRIS eine neue Bestleistung auf den Datensätzen RefCOCO, RefCOCO+ und RefCOCOg. Der Code ist unter https://github.com/naver-ai/maskris verfügbar.
English
Referring Image Segmentation (RIS) is an advanced vision-language task that
involves identifying and segmenting objects within an image as described by
free-form text descriptions. While previous studies focused on aligning visual
and language features, exploring training techniques, such as data
augmentation, remains underexplored. In this work, we explore effective data
augmentation for RIS and propose a novel training framework called Masked
Referring Image Segmentation (MaskRIS). We observe that the conventional image
augmentations fall short of RIS, leading to performance degradation, while
simple random masking significantly enhances the performance of RIS. MaskRIS
uses both image and text masking, followed by Distortion-aware Contextual
Learning (DCL) to fully exploit the benefits of the masking strategy. This
approach can improve the model's robustness to occlusions, incomplete
information, and various linguistic complexities, resulting in a significant
performance improvement. Experiments demonstrate that MaskRIS can easily be
applied to various RIS models, outperforming existing methods in both fully
supervised and weakly supervised settings. Finally, MaskRIS achieves new
state-of-the-art performance on RefCOCO, RefCOCO+, and RefCOCOg datasets. Code
is available at https://github.com/naver-ai/maskris.Summary
AI-Generated Summary