MaskRIS: Semantikverzerrungsaware Datenvermehrung für die Segmentierung von Referenzbildern

papers.abstract

Die Maskierte Bildsegmentierung (Maskierte Bildsegmentierung, MaskRIS) ist eine fortgeschrittene Aufgabe der Bild-Sprache, bei der die Identifizierung und Segmentierung von Objekten innerhalb eines Bildes anhand von Freiformtextbeschreibungen erfolgt. Während frühere Studien darauf abzielten, visuelle und sprachliche Merkmale abzugleichen, bleibt die Erforschung von Schulungstechniken wie der Datenanreicherung unterbelichtet. In dieser Arbeit untersuchen wir effektive Datenanreicherung für die maskierte Bildsegmentierung und schlagen einen neuartigen Schulungsrahmen namens Maskierte Bildsegmentierung (MaskRIS) vor. Wir stellen fest, dass herkömmliche Bildanreicherungen bei der maskierten Bildsegmentierung nicht ausreichen und zu einer Leistungsverschlechterung führen, während einfaches zufälliges Maskieren die Leistung der maskierten Bildsegmentierung signifikant verbessert. MaskRIS verwendet sowohl Bild- als auch Textmaskierung, gefolgt von einer verzerrungsbewussten kontextuellen Lernmethode (DCL), um die Vorteile der Maskierungsstrategie voll auszuschöpfen. Dieser Ansatz kann die Robustheit des Modells gegenüber Verdeckungen, unvollständigen Informationen und verschiedenen sprachlichen Komplexitäten verbessern, was zu einer signifikanten Leistungssteigerung führt. Experimente zeigen, dass MaskRIS leicht auf verschiedene Modelle der maskierten Bildsegmentierung angewendet werden kann und bestehende Methoden sowohl in vollständig überwachten als auch schwach überwachten Umgebungen übertrifft. Schließlich erzielt MaskRIS eine neue Bestleistung auf den Datensätzen RefCOCO, RefCOCO+ und RefCOCOg. Der Code ist unter https://github.com/naver-ai/maskris verfügbar.

English

Referring Image Segmentation (RIS) is an advanced vision-language task that involves identifying and segmenting objects within an image as described by free-form text descriptions. While previous studies focused on aligning visual and language features, exploring training techniques, such as data augmentation, remains underexplored. In this work, we explore effective data augmentation for RIS and propose a novel training framework called Masked Referring Image Segmentation (MaskRIS). We observe that the conventional image augmentations fall short of RIS, leading to performance degradation, while simple random masking significantly enhances the performance of RIS. MaskRIS uses both image and text masking, followed by Distortion-aware Contextual Learning (DCL) to fully exploit the benefits of the masking strategy. This approach can improve the model's robustness to occlusions, incomplete information, and various linguistic complexities, resulting in a significant performance improvement. Experiments demonstrate that MaskRIS can easily be applied to various RIS models, outperforming existing methods in both fully supervised and weakly supervised settings. Finally, MaskRIS achieves new state-of-the-art performance on RefCOCO, RefCOCO+, and RefCOCOg datasets. Code is available at https://github.com/naver-ai/maskris.

MaskRIS: Semantikverzerrungsaware Datenvermehrung für die Segmentierung von Referenzbildern

MaskRIS: Semantic Distortion-aware Data Augmentation for Referring Image Segmentation

papers.abstract

Support