Segmentazione Semantica Audio-Visuale a Vocabolario Aperto
Open-Vocabulary Audio-Visual Semantic Segmentation
July 31, 2024
Autori: Ruohao Guo, Liao Qu, Dantong Niu, Yanyu Qi, Wenzhen Yue, Ji Shi, Bowei Xing, Xianghua Ying
cs.AI
Abstract
La segmentazione semantica audio-visiva (AVSS) mira a segmentare e classificare oggetti sonori nei video utilizzando indizi acustici. Tuttavia, la maggior parte degli approcci opera sull'assunzione di un insieme chiuso e identifica solo categorie predefinite dai dati di addestramento, mancando della capacità di generalizzazione per rilevare categorie nuove in applicazioni pratiche. In questo articolo, introduciamo un nuovo compito: la segmentazione semantica audio-visiva a vocabolario aperto, estendendo il compito AVSS a scenari di mondo aperto oltre lo spazio delle etichette annotate. Si tratta di un compito più impegnativo che richiede il riconoscimento di tutte le categorie, anche quelle mai viste né udite durante l'addestramento. Inoltre, proponiamo il primo framework AVSS a vocabolario aperto, OV-AVSS, che consiste principalmente in due parti: 1) un modulo universale di localizzazione della sorgente sonora per eseguire la fusione audio-visiva e individuare tutti i potenziali oggetti sonori e 2) un modulo di classificazione a vocabolario aperto per prevedere le categorie con l'aiuto della conoscenza pregressa da modelli visione-linguaggio pre-addestrati su larga scala. Per valutare correttamente l'AVSS a vocabolario aperto, abbiamo suddiviso sottoinsiemi di addestramento e test zero-shot basati sul benchmark AVSBench-semantic, denominato AVSBench-OV. Esperimenti estensivi dimostrano la forte capacità di segmentazione e generalizzazione zero-shot del nostro modello su tutte le categorie. Sul dataset AVSBench-OV, OV-AVSS raggiunge il 55,43% di mIoU sulle categorie base e il 29,14% di mIoU sulle categorie nuove, superando il metodo zero-shot state-of-the-art del 41,88%/20,61% e il metodo a vocabolario aperto del 10,2%/11,6%. Il codice è disponibile all'indirizzo https://github.com/ruohaoguo/ovavss.
English
Audio-visual semantic segmentation (AVSS) aims to segment and classify
sounding objects in videos with acoustic cues. However, most approaches operate
on the close-set assumption and only identify pre-defined categories from
training data, lacking the generalization ability to detect novel categories in
practical applications. In this paper, we introduce a new task: open-vocabulary
audio-visual semantic segmentation, extending AVSS task to open-world scenarios
beyond the annotated label space. This is a more challenging task that requires
recognizing all categories, even those that have never been seen nor heard
during training. Moreover, we propose the first open-vocabulary AVSS framework,
OV-AVSS, which mainly consists of two parts: 1) a universal sound source
localization module to perform audio-visual fusion and locate all potential
sounding objects and 2) an open-vocabulary classification module to predict
categories with the help of the prior knowledge from large-scale pre-trained
vision-language models. To properly evaluate the open-vocabulary AVSS, we split
zero-shot training and testing subsets based on the AVSBench-semantic
benchmark, namely AVSBench-OV. Extensive experiments demonstrate the strong
segmentation and zero-shot generalization ability of our model on all
categories. On the AVSBench-OV dataset, OV-AVSS achieves 55.43% mIoU on base
categories and 29.14% mIoU on novel categories, exceeding the state-of-the-art
zero-shot method by 41.88%/20.61% and open-vocabulary method by 10.2%/11.6%.
The code is available at https://github.com/ruohaoguo/ovavss.