MaskRIS: Aumento de Dados Consciente de Distorção Semântica para Segmentação de Imagens Referentes
MaskRIS: Semantic Distortion-aware Data Augmentation for Referring Image Segmentation
November 28, 2024
Autores: Minhyun Lee, Seungho Lee, Song Park, Dongyoon Han, Byeongho Heo, Hyunjung Shim
cs.AI
Resumo
A Segmentação de Imagem Referenciada (RIS) é uma tarefa avançada de visão e linguagem que envolve identificar e segmentar objetos dentro de uma imagem conforme descrito por descrições de texto livre. Enquanto estudos anteriores focaram em alinhar características visuais e linguísticas, explorar técnicas de treinamento, como a ampliação de dados, ainda é pouco explorado. Neste trabalho, exploramos a ampliação de dados eficaz para RIS e propomos um novo framework de treinamento chamado Segmentação de Imagem Referenciada Mascaramento (MaskRIS). Observamos que as ampliações de imagem convencionais não são adequadas para RIS, levando a uma degradação de desempenho, enquanto o simples mascaramento aleatório melhora significativamente o desempenho do RIS. O MaskRIS utiliza tanto o mascaramento de imagem quanto de texto, seguido pela Aprendizagem Contextual Sensível à Distorção (DCL) para explorar totalmente os benefícios da estratégia de mascaramento. Essa abordagem pode melhorar a robustez do modelo a oclusões, informações incompletas e várias complexidades linguísticas, resultando em uma melhoria significativa de desempenho. Experimentos demonstram que o MaskRIS pode ser facilmente aplicado a vários modelos de RIS, superando os métodos existentes tanto em configurações totalmente supervisionadas quanto fracamente supervisionadas. Por fim, o MaskRIS alcança um novo desempenho de ponta nos conjuntos de dados RefCOCO, RefCOCO+ e RefCOCOg. O código está disponível em https://github.com/naver-ai/maskris.
English
Referring Image Segmentation (RIS) is an advanced vision-language task that
involves identifying and segmenting objects within an image as described by
free-form text descriptions. While previous studies focused on aligning visual
and language features, exploring training techniques, such as data
augmentation, remains underexplored. In this work, we explore effective data
augmentation for RIS and propose a novel training framework called Masked
Referring Image Segmentation (MaskRIS). We observe that the conventional image
augmentations fall short of RIS, leading to performance degradation, while
simple random masking significantly enhances the performance of RIS. MaskRIS
uses both image and text masking, followed by Distortion-aware Contextual
Learning (DCL) to fully exploit the benefits of the masking strategy. This
approach can improve the model's robustness to occlusions, incomplete
information, and various linguistic complexities, resulting in a significant
performance improvement. Experiments demonstrate that MaskRIS can easily be
applied to various RIS models, outperforming existing methods in both fully
supervised and weakly supervised settings. Finally, MaskRIS achieves new
state-of-the-art performance on RefCOCO, RefCOCO+, and RefCOCOg datasets. Code
is available at https://github.com/naver-ai/maskris.Summary
AI-Generated Summary