MaskRIS: Aumento de datos consciente de la distorsión semántica para la segmentación de imágenes de referencia.
MaskRIS: Semantic Distortion-aware Data Augmentation for Referring Image Segmentation
November 28, 2024
Autores: Minhyun Lee, Seungho Lee, Song Park, Dongyoon Han, Byeongho Heo, Hyunjung Shim
cs.AI
Resumen
La Segmentación de Imágenes Referenciadas (RIS, por sus siglas en inglés) es una tarea avanzada de visión por computadora y lenguaje que implica identificar y segmentar objetos dentro de una imagen según descripciones de texto libre. Mientras que estudios previos se enfocaron en alinear características visuales y de lenguaje, la exploración de técnicas de entrenamiento, como la aumentación de datos, sigue siendo poco explorada. En este trabajo, exploramos la aumentación efectiva de datos para RIS y proponemos un nuevo marco de entrenamiento llamado Segmentación de Imágenes Referenciadas Enmascaradas (MaskRIS). Observamos que las aumentaciones convencionales de imágenes no son suficientes para RIS, lo que resulta en una degradación del rendimiento, mientras que el enmascaramiento aleatorio simple mejora significativamente el rendimiento de RIS. MaskRIS utiliza tanto enmascaramiento de imágenes como de texto, seguido por Aprendizaje Contextual Consciente de la Distorsión (DCL) para explotar completamente los beneficios de la estrategia de enmascaramiento. Este enfoque puede mejorar la robustez del modelo ante oclusiones, información incompleta y diversas complejidades lingüísticas, lo que resulta en una mejora significativa del rendimiento. Los experimentos demuestran que MaskRIS puede aplicarse fácilmente a varios modelos de RIS, superando a los métodos existentes tanto en entornos completamente supervisados como débilmente supervisados. Finalmente, MaskRIS logra un nuevo rendimiento de vanguardia en los conjuntos de datos RefCOCO, RefCOCO+ y RefCOCOg. El código está disponible en https://github.com/naver-ai/maskris.
English
Referring Image Segmentation (RIS) is an advanced vision-language task that
involves identifying and segmenting objects within an image as described by
free-form text descriptions. While previous studies focused on aligning visual
and language features, exploring training techniques, such as data
augmentation, remains underexplored. In this work, we explore effective data
augmentation for RIS and propose a novel training framework called Masked
Referring Image Segmentation (MaskRIS). We observe that the conventional image
augmentations fall short of RIS, leading to performance degradation, while
simple random masking significantly enhances the performance of RIS. MaskRIS
uses both image and text masking, followed by Distortion-aware Contextual
Learning (DCL) to fully exploit the benefits of the masking strategy. This
approach can improve the model's robustness to occlusions, incomplete
information, and various linguistic complexities, resulting in a significant
performance improvement. Experiments demonstrate that MaskRIS can easily be
applied to various RIS models, outperforming existing methods in both fully
supervised and weakly supervised settings. Finally, MaskRIS achieves new
state-of-the-art performance on RefCOCO, RefCOCO+, and RefCOCOg datasets. Code
is available at https://github.com/naver-ai/maskris.Summary
AI-Generated Summary