ChatPaper.aiChatPaper

Segmentación semántica audiovisual de vocabulario abierto

Open-Vocabulary Audio-Visual Semantic Segmentation

July 31, 2024
Autores: Ruohao Guo, Liao Qu, Dantong Niu, Yanyu Qi, Wenzhen Yue, Ji Shi, Bowei Xing, Xianghua Ying
cs.AI

Resumen

La segmentación semántica audiovisual (AVSS) tiene como objetivo segmentar y clasificar objetos sonoros en videos con pistas acústicas. Sin embargo, la mayoría de los enfoques operan bajo la suposición de conjunto cerrado y solo identifican categorías predefinidas a partir de datos de entrenamiento, careciendo de la capacidad de generalización para detectar categorías novedosas en aplicaciones prácticas. En este artículo, presentamos una nueva tarea: la segmentación semántica audiovisual de vocabulario abierto, extendiendo la tarea de AVSS a escenarios de mundo abierto más allá del espacio de etiquetas anotadas. Esta es una tarea más desafiante que requiere reconocer todas las categorías, incluso aquellas que nunca han sido vistas ni escuchadas durante el entrenamiento. Además, proponemos el primer marco de trabajo de AVSS de vocabulario abierto, OV-AVSS, que consiste principalmente en dos partes: 1) un módulo de localización de fuente de sonido universal para realizar fusión audiovisual y localizar todos los objetos sonoros potenciales y 2) un módulo de clasificación de vocabulario abierto para predecir categorías con la ayuda del conocimiento previo de modelos de visión-lenguaje preentrenados a gran escala. Para evaluar adecuadamente la AVSS de vocabulario abierto, dividimos los subconjuntos de entrenamiento y prueba de cero disparos basados en el banco de pruebas semántico AVSBench, denominado AVSBench-OV. Experimentos extensos demuestran la sólida capacidad de segmentación y generalización de cero disparos de nuestro modelo en todas las categorías. En el conjunto de datos AVSBench-OV, OV-AVSS logra un mIoU del 55.43% en las categorías base y un mIoU del 29.14% en las categorías novedosas, superando al método de cero disparos de vanguardia en un 41.88%/20.61% y al método de vocabulario abierto en un 10.2%/11.6%. El código está disponible en https://github.com/ruohaoguo/ovavss.
English
Audio-visual semantic segmentation (AVSS) aims to segment and classify sounding objects in videos with acoustic cues. However, most approaches operate on the close-set assumption and only identify pre-defined categories from training data, lacking the generalization ability to detect novel categories in practical applications. In this paper, we introduce a new task: open-vocabulary audio-visual semantic segmentation, extending AVSS task to open-world scenarios beyond the annotated label space. This is a more challenging task that requires recognizing all categories, even those that have never been seen nor heard during training. Moreover, we propose the first open-vocabulary AVSS framework, OV-AVSS, which mainly consists of two parts: 1) a universal sound source localization module to perform audio-visual fusion and locate all potential sounding objects and 2) an open-vocabulary classification module to predict categories with the help of the prior knowledge from large-scale pre-trained vision-language models. To properly evaluate the open-vocabulary AVSS, we split zero-shot training and testing subsets based on the AVSBench-semantic benchmark, namely AVSBench-OV. Extensive experiments demonstrate the strong segmentation and zero-shot generalization ability of our model on all categories. On the AVSBench-OV dataset, OV-AVSS achieves 55.43% mIoU on base categories and 29.14% mIoU on novel categories, exceeding the state-of-the-art zero-shot method by 41.88%/20.61% and open-vocabulary method by 10.2%/11.6%. The code is available at https://github.com/ruohaoguo/ovavss.

Summary

AI-Generated Summary

PDF92November 28, 2024