MaskRIS: Семантическое искажение-осведомленное увеличение данных для сегментации изображений с ссылками

Аннотация

Ссылочная сегментация изображений (RIS) - это продвинутая задача в области обработки изображений и языка, которая заключается в идентификации и сегментации объектов на изображении в соответствии с описаниями в свободной форме. В то время как предыдущие исследования сосредотачивались на выравнивании визуальных и языковых признаков, исследование методов обучения, таких как аугментация данных, остается малоисследованным. В данной работе мы исследуем эффективную аугментацию данных для RIS и предлагаем новую обучающую структуру под названием Маскированная ссылочная сегментация изображений (MaskRIS). Мы замечаем, что традиционные аугментации изображений недостаточны для RIS, что приводит к снижению производительности, в то время как простая случайная маскировка значительно улучшает производительность RIS. MaskRIS использует как маскировку изображений, так и текста, за которой следует Обучение контекстуальной деформации (DCL) для полного использования преимуществ стратегии маскировки. Этот подход может улучшить устойчивость модели к заслонениям, неполной информации и различным лингвистическим сложностям, что приводит к значительному улучшению производительности. Эксперименты показывают, что MaskRIS легко может быть применен к различным моделям RIS, превосходя существующие методы как в полностью надзорных, так и в слабо надзорных настройках. Наконец, MaskRIS достигает нового рекордного уровня производительности на наборах данных RefCOCO, RefCOCO+ и RefCOCOg. Код доступен по ссылке https://github.com/naver-ai/maskris.

English

Referring Image Segmentation (RIS) is an advanced vision-language task that involves identifying and segmenting objects within an image as described by free-form text descriptions. While previous studies focused on aligning visual and language features, exploring training techniques, such as data augmentation, remains underexplored. In this work, we explore effective data augmentation for RIS and propose a novel training framework called Masked Referring Image Segmentation (MaskRIS). We observe that the conventional image augmentations fall short of RIS, leading to performance degradation, while simple random masking significantly enhances the performance of RIS. MaskRIS uses both image and text masking, followed by Distortion-aware Contextual Learning (DCL) to fully exploit the benefits of the masking strategy. This approach can improve the model's robustness to occlusions, incomplete information, and various linguistic complexities, resulting in a significant performance improvement. Experiments demonstrate that MaskRIS can easily be applied to various RIS models, outperforming existing methods in both fully supervised and weakly supervised settings. Finally, MaskRIS achieves new state-of-the-art performance on RefCOCO, RefCOCO+, and RefCOCOg datasets. Code is available at https://github.com/naver-ai/maskris.

MaskRIS: Семантическое искажение-осведомленное увеличение данных для сегментации изображений с ссылками

MaskRIS: Semantic Distortion-aware Data Augmentation for Referring Image Segmentation

Аннотация

Support