Ref-AVS: Referenciar y Segmentar Objetos en Escenas Audiovisuales
Ref-AVS: Refer and Segment Objects in Audio-Visual Scenes
July 15, 2024
Autores: Yaoting Wang, Peiwen Sun, Dongzhan Zhou, Guangyao Li, Honggang Zhang, Di Hu
cs.AI
Resumen
Las tareas tradicionales de segmentación de referencia han estado predominantemente centradas en escenas visuales silenciosas, descuidando el papel integral de la percepción multimodal y la interacción en las experiencias humanas. En este trabajo, introducimos una nueva tarea llamada Segmentación Audiovisual de Referencia (Ref-AVS), que busca segmentar objetos dentro del dominio visual basándose en expresiones que contienen señales multimodales. Tales expresiones se articulan en formas de lenguaje natural pero están enriquecidas con señales multimodales, incluyendo descripciones de audio y visual. Para facilitar esta investigación, construimos el primer conjunto de datos de referencia Ref-AVS, que proporciona anotaciones a nivel de píxel para objetos descritos en expresiones correspondientes a señales multimodales. Para abordar la tarea Ref-AVS, proponemos un nuevo método que utiliza adecuadamente las señales multimodales para ofrecer una guía de segmentación precisa. Finalmente, realizamos experimentos cuantitativos y cualitativos en tres subconjuntos de prueba para comparar nuestro enfoque con métodos existentes de tareas relacionadas. Los resultados demuestran la efectividad de nuestro método, resaltando su capacidad para segmentar objetos de manera precisa utilizando expresiones de señales multimodales. El conjunto de datos está disponible en https://gewu-lab.github.io/Ref-AVS.
English
Traditional reference segmentation tasks have predominantly focused on silent
visual scenes, neglecting the integral role of multimodal perception and
interaction in human experiences. In this work, we introduce a novel task
called Reference Audio-Visual Segmentation (Ref-AVS), which seeks to segment
objects within the visual domain based on expressions containing multimodal
cues. Such expressions are articulated in natural language forms but are
enriched with multimodal cues, including audio and visual descriptions. To
facilitate this research, we construct the first Ref-AVS benchmark, which
provides pixel-level annotations for objects described in corresponding
multimodal-cue expressions. To tackle the Ref-AVS task, we propose a new method
that adequately utilizes multimodal cues to offer precise segmentation
guidance. Finally, we conduct quantitative and qualitative experiments on three
test subsets to compare our approach with existing methods from related tasks.
The results demonstrate the effectiveness of our method, highlighting its
capability to precisely segment objects using multimodal-cue expressions.
Dataset is available at
https://gewu-lab.github.io/Ref-AVS{https://gewu-lab.github.io/Ref-AVS}.Summary
AI-Generated Summary