ChatPaper.aiChatPaper

Segmentation sémantique audio-visuelle à vocabulaire ouvert

Open-Vocabulary Audio-Visual Semantic Segmentation

July 31, 2024
Auteurs: Ruohao Guo, Liao Qu, Dantong Niu, Yanyu Qi, Wenzhen Yue, Ji Shi, Bowei Xing, Xianghua Ying
cs.AI

Résumé

La segmentation sémantique audio-visuelle (AVSS) vise à segmenter et classer les objets sonores dans les vidéos à l'aide d'indices acoustiques. Cependant, la plupart des approches opèrent sous l'hypothèse de catégories fermées et ne peuvent identifier que des catégories prédéfinies à partir des données d'entraînement, manquant ainsi de la capacité de généralisation nécessaire pour détecter des catégories nouvelles dans des applications pratiques. Dans cet article, nous introduisons une nouvelle tâche : la segmentation sémantique audio-visuelle à vocabulaire ouvert, étendant la tâche AVSS à des scénarios de monde ouvert au-delà de l'espace de labels annotés. Il s'agit d'une tâche plus complexe qui nécessite de reconnaître toutes les catégories, y compris celles qui n'ont jamais été vues ni entendues pendant l'entraînement. De plus, nous proposons le premier cadre AVSS à vocabulaire ouvert, OV-AVSS, qui se compose principalement de deux parties : 1) un module universel de localisation des sources sonores pour effectuer la fusion audio-visuelle et localiser tous les objets sonores potentiels, et 2) un module de classification à vocabulaire ouvert pour prédire les catégories en s'appuyant sur les connaissances préalables issues de modèles vision-langage pré-entraînés à grande échelle. Pour évaluer correctement l'AVSS à vocabulaire ouvert, nous avons divisé des sous-ensembles d'entraînement et de test zero-shot basés sur le benchmark AVSBench-semantic, nommé AVSBench-OV. Des expériences approfondies démontrent la forte capacité de segmentation et de généralisation zero-shot de notre modèle sur toutes les catégories. Sur le jeu de données AVSBench-OV, OV-AVSS atteint 55,43 % de mIoU sur les catégories de base et 29,14 % de mIoU sur les catégories nouvelles, surpassant la méthode zero-shot de pointe de 41,88 %/20,61 % et la méthode à vocabulaire ouvert de 10,2 %/11,6 %. Le code est disponible à l'adresse https://github.com/ruohaoguo/ovavss.
English
Audio-visual semantic segmentation (AVSS) aims to segment and classify sounding objects in videos with acoustic cues. However, most approaches operate on the close-set assumption and only identify pre-defined categories from training data, lacking the generalization ability to detect novel categories in practical applications. In this paper, we introduce a new task: open-vocabulary audio-visual semantic segmentation, extending AVSS task to open-world scenarios beyond the annotated label space. This is a more challenging task that requires recognizing all categories, even those that have never been seen nor heard during training. Moreover, we propose the first open-vocabulary AVSS framework, OV-AVSS, which mainly consists of two parts: 1) a universal sound source localization module to perform audio-visual fusion and locate all potential sounding objects and 2) an open-vocabulary classification module to predict categories with the help of the prior knowledge from large-scale pre-trained vision-language models. To properly evaluate the open-vocabulary AVSS, we split zero-shot training and testing subsets based on the AVSBench-semantic benchmark, namely AVSBench-OV. Extensive experiments demonstrate the strong segmentation and zero-shot generalization ability of our model on all categories. On the AVSBench-OV dataset, OV-AVSS achieves 55.43% mIoU on base categories and 29.14% mIoU on novel categories, exceeding the state-of-the-art zero-shot method by 41.88%/20.61% and open-vocabulary method by 10.2%/11.6%. The code is available at https://github.com/ruohaoguo/ovavss.

Summary

AI-Generated Summary

PDF92November 28, 2024