Ref-AVS: Referenciar y Segmentar Objetos en Escenas Audiovisuales

Resumen

Las tareas tradicionales de segmentación de referencia han estado predominantemente centradas en escenas visuales silenciosas, descuidando el papel integral de la percepción multimodal y la interacción en las experiencias humanas. En este trabajo, introducimos una nueva tarea llamada Segmentación Audiovisual de Referencia (Ref-AVS), que busca segmentar objetos dentro del dominio visual basándose en expresiones que contienen señales multimodales. Tales expresiones se articulan en formas de lenguaje natural pero están enriquecidas con señales multimodales, incluyendo descripciones de audio y visual. Para facilitar esta investigación, construimos el primer conjunto de datos de referencia Ref-AVS, que proporciona anotaciones a nivel de píxel para objetos descritos en expresiones correspondientes a señales multimodales. Para abordar la tarea Ref-AVS, proponemos un nuevo método que utiliza adecuadamente las señales multimodales para ofrecer una guía de segmentación precisa. Finalmente, realizamos experimentos cuantitativos y cualitativos en tres subconjuntos de prueba para comparar nuestro enfoque con métodos existentes de tareas relacionadas. Los resultados demuestran la efectividad de nuestro método, resaltando su capacidad para segmentar objetos de manera precisa utilizando expresiones de señales multimodales. El conjunto de datos está disponible en https://gewu-lab.github.io/Ref-AVS.

English

Traditional reference segmentation tasks have predominantly focused on silent visual scenes, neglecting the integral role of multimodal perception and interaction in human experiences. In this work, we introduce a novel task called Reference Audio-Visual Segmentation (Ref-AVS), which seeks to segment objects within the visual domain based on expressions containing multimodal cues. Such expressions are articulated in natural language forms but are enriched with multimodal cues, including audio and visual descriptions. To facilitate this research, we construct the first Ref-AVS benchmark, which provides pixel-level annotations for objects described in corresponding multimodal-cue expressions. To tackle the Ref-AVS task, we propose a new method that adequately utilizes multimodal cues to offer precise segmentation guidance. Finally, we conduct quantitative and qualitative experiments on three test subsets to compare our approach with existing methods from related tasks. The results demonstrate the effectiveness of our method, highlighting its capability to precisely segment objects using multimodal-cue expressions. Dataset is available at https://gewu-lab.github.io/Ref-AVS{https://gewu-lab.github.io/Ref-AVS}.

Ref-AVS: Referenciar y Segmentar Objetos en Escenas Audiovisuales

Ref-AVS: Refer and Segment Objects in Audio-Visual Scenes

Resumen

Support