Segmentação Semântica Audiovisual de Vocabulário Aberto

Resumo

A segmentação semântica áudio-visual (AVSS) tem como objetivo segmentar e classificar objetos sonoros em vídeos com pistas acústicas. No entanto, a maioria das abordagens opera com a suposição de conjunto fechado e apenas identifica categorias pré-definidas a partir dos dados de treinamento, carecendo da capacidade de generalização para detectar categorias novas em aplicações práticas. Neste artigo, introduzimos uma nova tarefa: segmentação semântica áudio-visual de vocabulário aberto, estendendo a tarefa AVSS para cenários de mundo aberto além do espaço de rótulos anotados. Esta é uma tarefa mais desafiadora que requer o reconhecimento de todas as categorias, mesmo aquelas que nunca foram vistas ou ouvidas durante o treinamento. Além disso, propomos o primeiro framework de AVSS de vocabulário aberto, OV-AVSS, que consiste principalmente em duas partes: 1) um módulo de localização de fonte sonora universal para realizar a fusão áudio-visual e localizar todos os objetos sonoros potenciais e 2) um módulo de classificação de vocabulário aberto para prever categorias com a ajuda do conhecimento prévio de modelos visão-linguagem pré-treinados em grande escala. Para avaliar adequadamente o AVSS de vocabulário aberto, dividimos os subconjuntos de treinamento e teste de zero-shot com base no benchmark semântico AVSBench, nomeadamente AVSBench-OV. Experimentos extensivos demonstram a forte capacidade de segmentação e generalização de zero-shot do nosso modelo em todas as categorias. No conjunto de dados AVSBench-OV, o OV-AVSS alcança 55,43% de mIoU em categorias base e 29,14% de mIoU em categorias novas, superando o método de zero-shot de última geração em 41,88%/20,61% e o método de vocabulário aberto em 10,2%/11,6%. O código está disponível em https://github.com/ruohaoguo/ovavss.

English

Audio-visual semantic segmentation (AVSS) aims to segment and classify sounding objects in videos with acoustic cues. However, most approaches operate on the close-set assumption and only identify pre-defined categories from training data, lacking the generalization ability to detect novel categories in practical applications. In this paper, we introduce a new task: open-vocabulary audio-visual semantic segmentation, extending AVSS task to open-world scenarios beyond the annotated label space. This is a more challenging task that requires recognizing all categories, even those that have never been seen nor heard during training. Moreover, we propose the first open-vocabulary AVSS framework, OV-AVSS, which mainly consists of two parts: 1) a universal sound source localization module to perform audio-visual fusion and locate all potential sounding objects and 2) an open-vocabulary classification module to predict categories with the help of the prior knowledge from large-scale pre-trained vision-language models. To properly evaluate the open-vocabulary AVSS, we split zero-shot training and testing subsets based on the AVSBench-semantic benchmark, namely AVSBench-OV. Extensive experiments demonstrate the strong segmentation and zero-shot generalization ability of our model on all categories. On the AVSBench-OV dataset, OV-AVSS achieves 55.43% mIoU on base categories and 29.14% mIoU on novel categories, exceeding the state-of-the-art zero-shot method by 41.88%/20.61% and open-vocabulary method by 10.2%/11.6%. The code is available at https://github.com/ruohaoguo/ovavss.

Segmentação Semântica Audiovisual de Vocabulário Aberto

Open-Vocabulary Audio-Visual Semantic Segmentation

Resumo

Summary

Support

Support