ChatPaper.aiChatPaper

Offene Vokabular Audio-Visuelle Semantische Segmentierung

Open-Vocabulary Audio-Visual Semantic Segmentation

July 31, 2024
Autoren: Ruohao Guo, Liao Qu, Dantong Niu, Yanyu Qi, Wenzhen Yue, Ji Shi, Bowei Xing, Xianghua Ying
cs.AI

Zusammenfassung

Die audiovisuelle semantische Segmentierung (AVSS) zielt darauf ab, klingende Objekte in Videos anhand akustischer Hinweise zu segmentieren und zu klassifizieren. Die meisten Ansätze arbeiten jedoch unter der Annahme eines geschlossenen Satzes und identifizieren nur vordefinierte Kategorien aus Trainingsdaten, wodurch die Verallgemeinerungsfähigkeit zur Erkennung neuer Kategorien in praktischen Anwendungen fehlt. In diesem Artikel stellen wir eine neue Aufgabe vor: die offene Vokabelaudiovisuelle semantische Segmentierung, die die AVSS-Aufgabe auf Szenarien in einer offenen Welt jenseits des annotierten Labelraums erweitert. Dies ist eine anspruchsvollere Aufgabe, die erfordert, alle Kategorien zu erkennen, auch solche, die während des Trainings weder gesehen noch gehört wurden. Darüber hinaus schlagen wir das erste Framework für offene Vokabel-AVSS, OV-AVSS, vor, das hauptsächlich aus zwei Teilen besteht: 1) einem universellen Soundquellenlokalisierungsmodul zur Durchführung von Audio-Visual-Fusion und Lokalisierung aller potenziellen klingenden Objekte und 2) einem offenen Vokabelklassifikationsmodul zur Vorhersage von Kategorien mit Hilfe des Vorwissens aus groß angelegten vortrainierten Vision-Sprach-Modellen. Um die offene Vokabel-AVSS angemessen zu bewerten, haben wir Null-Shot-Trainings- und Testteilmengen basierend auf dem AVSBench-semantischen Benchmark aufgeteilt, nämlich AVSBench-OV. Umfangreiche Experimente zeigen die starke Segmentierungs- und Null-Shot-Verallgemeinerungsfähigkeit unseres Modells für alle Kategorien. Auf dem AVSBench-OV-Datensatz erreicht OV-AVSS 55,43% mIoU bei Basis-Kategorien und 29,14% mIoU bei neuen Kategorien, was die state-of-the-art Null-Shot-Methode um 41,88%/20,61% und die offene Vokabelmethode um 10,2%/11,6% übertrifft. Der Code ist verfügbar unter https://github.com/ruohaoguo/ovavss.
English
Audio-visual semantic segmentation (AVSS) aims to segment and classify sounding objects in videos with acoustic cues. However, most approaches operate on the close-set assumption and only identify pre-defined categories from training data, lacking the generalization ability to detect novel categories in practical applications. In this paper, we introduce a new task: open-vocabulary audio-visual semantic segmentation, extending AVSS task to open-world scenarios beyond the annotated label space. This is a more challenging task that requires recognizing all categories, even those that have never been seen nor heard during training. Moreover, we propose the first open-vocabulary AVSS framework, OV-AVSS, which mainly consists of two parts: 1) a universal sound source localization module to perform audio-visual fusion and locate all potential sounding objects and 2) an open-vocabulary classification module to predict categories with the help of the prior knowledge from large-scale pre-trained vision-language models. To properly evaluate the open-vocabulary AVSS, we split zero-shot training and testing subsets based on the AVSBench-semantic benchmark, namely AVSBench-OV. Extensive experiments demonstrate the strong segmentation and zero-shot generalization ability of our model on all categories. On the AVSBench-OV dataset, OV-AVSS achieves 55.43% mIoU on base categories and 29.14% mIoU on novel categories, exceeding the state-of-the-art zero-shot method by 41.88%/20.61% and open-vocabulary method by 10.2%/11.6%. The code is available at https://github.com/ruohaoguo/ovavss.

Summary

AI-Generated Summary

PDF92November 28, 2024