MaskRIS: Семантическое искажение-осведомленное увеличение данных для сегментации изображений с ссылками
MaskRIS: Semantic Distortion-aware Data Augmentation for Referring Image Segmentation
November 28, 2024
Авторы: Minhyun Lee, Seungho Lee, Song Park, Dongyoon Han, Byeongho Heo, Hyunjung Shim
cs.AI
Аннотация
Ссылочная сегментация изображений (RIS) - это продвинутая задача в области обработки изображений и языка, которая заключается в идентификации и сегментации объектов на изображении в соответствии с описаниями в свободной форме. В то время как предыдущие исследования сосредотачивались на выравнивании визуальных и языковых признаков, исследование методов обучения, таких как аугментация данных, остается малоисследованным. В данной работе мы исследуем эффективную аугментацию данных для RIS и предлагаем новую обучающую структуру под названием Маскированная ссылочная сегментация изображений (MaskRIS). Мы замечаем, что традиционные аугментации изображений недостаточны для RIS, что приводит к снижению производительности, в то время как простая случайная маскировка значительно улучшает производительность RIS. MaskRIS использует как маскировку изображений, так и текста, за которой следует Обучение контекстуальной деформации (DCL) для полного использования преимуществ стратегии маскировки. Этот подход может улучшить устойчивость модели к заслонениям, неполной информации и различным лингвистическим сложностям, что приводит к значительному улучшению производительности. Эксперименты показывают, что MaskRIS легко может быть применен к различным моделям RIS, превосходя существующие методы как в полностью надзорных, так и в слабо надзорных настройках. Наконец, MaskRIS достигает нового рекордного уровня производительности на наборах данных RefCOCO, RefCOCO+ и RefCOCOg. Код доступен по ссылке https://github.com/naver-ai/maskris.
English
Referring Image Segmentation (RIS) is an advanced vision-language task that
involves identifying and segmenting objects within an image as described by
free-form text descriptions. While previous studies focused on aligning visual
and language features, exploring training techniques, such as data
augmentation, remains underexplored. In this work, we explore effective data
augmentation for RIS and propose a novel training framework called Masked
Referring Image Segmentation (MaskRIS). We observe that the conventional image
augmentations fall short of RIS, leading to performance degradation, while
simple random masking significantly enhances the performance of RIS. MaskRIS
uses both image and text masking, followed by Distortion-aware Contextual
Learning (DCL) to fully exploit the benefits of the masking strategy. This
approach can improve the model's robustness to occlusions, incomplete
information, and various linguistic complexities, resulting in a significant
performance improvement. Experiments demonstrate that MaskRIS can easily be
applied to various RIS models, outperforming existing methods in both fully
supervised and weakly supervised settings. Finally, MaskRIS achieves new
state-of-the-art performance on RefCOCO, RefCOCO+, and RefCOCOg datasets. Code
is available at https://github.com/naver-ai/maskris.Summary
AI-Generated Summary