Segmentação Semântica Audiovisual de Vocabulário Aberto
Open-Vocabulary Audio-Visual Semantic Segmentation
July 31, 2024
Autores: Ruohao Guo, Liao Qu, Dantong Niu, Yanyu Qi, Wenzhen Yue, Ji Shi, Bowei Xing, Xianghua Ying
cs.AI
Resumo
A segmentação semântica áudio-visual (AVSS) tem como objetivo segmentar e classificar objetos sonoros em vídeos com pistas acústicas. No entanto, a maioria das abordagens opera com a suposição de conjunto fechado e apenas identifica categorias pré-definidas a partir dos dados de treinamento, carecendo da capacidade de generalização para detectar categorias novas em aplicações práticas. Neste artigo, introduzimos uma nova tarefa: segmentação semântica áudio-visual de vocabulário aberto, estendendo a tarefa AVSS para cenários de mundo aberto além do espaço de rótulos anotados. Esta é uma tarefa mais desafiadora que requer o reconhecimento de todas as categorias, mesmo aquelas que nunca foram vistas ou ouvidas durante o treinamento. Além disso, propomos o primeiro framework de AVSS de vocabulário aberto, OV-AVSS, que consiste principalmente em duas partes: 1) um módulo de localização de fonte sonora universal para realizar a fusão áudio-visual e localizar todos os objetos sonoros potenciais e 2) um módulo de classificação de vocabulário aberto para prever categorias com a ajuda do conhecimento prévio de modelos visão-linguagem pré-treinados em grande escala. Para avaliar adequadamente o AVSS de vocabulário aberto, dividimos os subconjuntos de treinamento e teste de zero-shot com base no benchmark semântico AVSBench, nomeadamente AVSBench-OV. Experimentos extensivos demonstram a forte capacidade de segmentação e generalização de zero-shot do nosso modelo em todas as categorias. No conjunto de dados AVSBench-OV, o OV-AVSS alcança 55,43% de mIoU em categorias base e 29,14% de mIoU em categorias novas, superando o método de zero-shot de última geração em 41,88%/20,61% e o método de vocabulário aberto em 10,2%/11,6%. O código está disponível em https://github.com/ruohaoguo/ovavss.
English
Audio-visual semantic segmentation (AVSS) aims to segment and classify
sounding objects in videos with acoustic cues. However, most approaches operate
on the close-set assumption and only identify pre-defined categories from
training data, lacking the generalization ability to detect novel categories in
practical applications. In this paper, we introduce a new task: open-vocabulary
audio-visual semantic segmentation, extending AVSS task to open-world scenarios
beyond the annotated label space. This is a more challenging task that requires
recognizing all categories, even those that have never been seen nor heard
during training. Moreover, we propose the first open-vocabulary AVSS framework,
OV-AVSS, which mainly consists of two parts: 1) a universal sound source
localization module to perform audio-visual fusion and locate all potential
sounding objects and 2) an open-vocabulary classification module to predict
categories with the help of the prior knowledge from large-scale pre-trained
vision-language models. To properly evaluate the open-vocabulary AVSS, we split
zero-shot training and testing subsets based on the AVSBench-semantic
benchmark, namely AVSBench-OV. Extensive experiments demonstrate the strong
segmentation and zero-shot generalization ability of our model on all
categories. On the AVSBench-OV dataset, OV-AVSS achieves 55.43% mIoU on base
categories and 29.14% mIoU on novel categories, exceeding the state-of-the-art
zero-shot method by 41.88%/20.61% and open-vocabulary method by 10.2%/11.6%.
The code is available at https://github.com/ruohaoguo/ovavss.Summary
AI-Generated Summary