MaskRIS: Aumento de datos consciente de la distorsión semántica para la segmentación de imágenes de referencia.

Resumen

La Segmentación de Imágenes Referenciadas (RIS, por sus siglas en inglés) es una tarea avanzada de visión por computadora y lenguaje que implica identificar y segmentar objetos dentro de una imagen según descripciones de texto libre. Mientras que estudios previos se enfocaron en alinear características visuales y de lenguaje, la exploración de técnicas de entrenamiento, como la aumentación de datos, sigue siendo poco explorada. En este trabajo, exploramos la aumentación efectiva de datos para RIS y proponemos un nuevo marco de entrenamiento llamado Segmentación de Imágenes Referenciadas Enmascaradas (MaskRIS). Observamos que las aumentaciones convencionales de imágenes no son suficientes para RIS, lo que resulta en una degradación del rendimiento, mientras que el enmascaramiento aleatorio simple mejora significativamente el rendimiento de RIS. MaskRIS utiliza tanto enmascaramiento de imágenes como de texto, seguido por Aprendizaje Contextual Consciente de la Distorsión (DCL) para explotar completamente los beneficios de la estrategia de enmascaramiento. Este enfoque puede mejorar la robustez del modelo ante oclusiones, información incompleta y diversas complejidades lingüísticas, lo que resulta en una mejora significativa del rendimiento. Los experimentos demuestran que MaskRIS puede aplicarse fácilmente a varios modelos de RIS, superando a los métodos existentes tanto en entornos completamente supervisados como débilmente supervisados. Finalmente, MaskRIS logra un nuevo rendimiento de vanguardia en los conjuntos de datos RefCOCO, RefCOCO+ y RefCOCOg. El código está disponible en https://github.com/naver-ai/maskris.

English

Referring Image Segmentation (RIS) is an advanced vision-language task that involves identifying and segmenting objects within an image as described by free-form text descriptions. While previous studies focused on aligning visual and language features, exploring training techniques, such as data augmentation, remains underexplored. In this work, we explore effective data augmentation for RIS and propose a novel training framework called Masked Referring Image Segmentation (MaskRIS). We observe that the conventional image augmentations fall short of RIS, leading to performance degradation, while simple random masking significantly enhances the performance of RIS. MaskRIS uses both image and text masking, followed by Distortion-aware Contextual Learning (DCL) to fully exploit the benefits of the masking strategy. This approach can improve the model's robustness to occlusions, incomplete information, and various linguistic complexities, resulting in a significant performance improvement. Experiments demonstrate that MaskRIS can easily be applied to various RIS models, outperforming existing methods in both fully supervised and weakly supervised settings. Finally, MaskRIS achieves new state-of-the-art performance on RefCOCO, RefCOCO+, and RefCOCOg datasets. Code is available at https://github.com/naver-ai/maskris.

MaskRIS: Aumento de datos consciente de la distorsión semántica para la segmentación de imágenes de referencia.

MaskRIS: Semantic Distortion-aware Data Augmentation for Referring Image Segmentation

Resumen

Support