MaskRIS:参照画像セグメンテーションのための意味歪みに注意したデータ拡張
MaskRIS: Semantic Distortion-aware Data Augmentation for Referring Image Segmentation
November 28, 2024
著者: Minhyun Lee, Seungho Lee, Song Park, Dongyoon Han, Byeongho Heo, Hyunjung Shim
cs.AI
要旨
参照画像セグメンテーション(RIS)は、自由形式のテキスト記述によって説明される画像内のオブジェクトを識別およびセグメンテーションする高度なビジョン言語タスクです。従来の研究は視覚と言語の特徴を整合させることに焦点を当ててきましたが、データ拡張などのトレーニング技術の探求は未開拓の領域です。本研究では、RIS向けの効果的なデータ拡張を探求し、Masked Referring Image Segmentation(MaskRIS)という新しいトレーニングフレームワークを提案します。従来の画像拡張がRISには不十分であり、性能の低下を招く一方、単純なランダムマスキングがRISの性能を著しく向上させることが観察されました。MaskRISは、画像とテキストの両方のマスキングを使用し、その後に歪みに注意した文脈学習(DCL)を行うことで、マスキング戦略の利点を十分に活用します。このアプローチにより、モデルが遮蔽、不完全な情報、および様々な言語的複雑さに対する耐性が向上し、著しい性能向上がもたらされます。実験により、MaskRISはさまざまなRISモデルに簡単に適用でき、完全教師付きおよび弱教師付きの両方の設定で既存の手法を上回ることが示されます。最後に、MaskRISはRefCOCO、RefCOCO+、およびRefCOCOgデータセットで新たな最先端の性能を達成します。コードはhttps://github.com/naver-ai/maskrisで入手可能です。
English
Referring Image Segmentation (RIS) is an advanced vision-language task that
involves identifying and segmenting objects within an image as described by
free-form text descriptions. While previous studies focused on aligning visual
and language features, exploring training techniques, such as data
augmentation, remains underexplored. In this work, we explore effective data
augmentation for RIS and propose a novel training framework called Masked
Referring Image Segmentation (MaskRIS). We observe that the conventional image
augmentations fall short of RIS, leading to performance degradation, while
simple random masking significantly enhances the performance of RIS. MaskRIS
uses both image and text masking, followed by Distortion-aware Contextual
Learning (DCL) to fully exploit the benefits of the masking strategy. This
approach can improve the model's robustness to occlusions, incomplete
information, and various linguistic complexities, resulting in a significant
performance improvement. Experiments demonstrate that MaskRIS can easily be
applied to various RIS models, outperforming existing methods in both fully
supervised and weakly supervised settings. Finally, MaskRIS achieves new
state-of-the-art performance on RefCOCO, RefCOCO+, and RefCOCOg datasets. Code
is available at https://github.com/naver-ai/maskris.Summary
AI-Generated Summary