Offene Vokabular Audio-Visuelle Semantische Segmentierung
Open-Vocabulary Audio-Visual Semantic Segmentation
July 31, 2024
Autoren: Ruohao Guo, Liao Qu, Dantong Niu, Yanyu Qi, Wenzhen Yue, Ji Shi, Bowei Xing, Xianghua Ying
cs.AI
Zusammenfassung
Die audiovisuelle semantische Segmentierung (AVSS) zielt darauf ab, klingende Objekte in Videos anhand akustischer Hinweise zu segmentieren und zu klassifizieren. Die meisten Ansätze arbeiten jedoch unter der Annahme eines geschlossenen Satzes und identifizieren nur vordefinierte Kategorien aus Trainingsdaten, wodurch die Verallgemeinerungsfähigkeit zur Erkennung neuer Kategorien in praktischen Anwendungen fehlt. In diesem Artikel stellen wir eine neue Aufgabe vor: die offene Vokabelaudiovisuelle semantische Segmentierung, die die AVSS-Aufgabe auf Szenarien in einer offenen Welt jenseits des annotierten Labelraums erweitert. Dies ist eine anspruchsvollere Aufgabe, die erfordert, alle Kategorien zu erkennen, auch solche, die während des Trainings weder gesehen noch gehört wurden. Darüber hinaus schlagen wir das erste Framework für offene Vokabel-AVSS, OV-AVSS, vor, das hauptsächlich aus zwei Teilen besteht: 1) einem universellen Soundquellenlokalisierungsmodul zur Durchführung von Audio-Visual-Fusion und Lokalisierung aller potenziellen klingenden Objekte und 2) einem offenen Vokabelklassifikationsmodul zur Vorhersage von Kategorien mit Hilfe des Vorwissens aus groß angelegten vortrainierten Vision-Sprach-Modellen. Um die offene Vokabel-AVSS angemessen zu bewerten, haben wir Null-Shot-Trainings- und Testteilmengen basierend auf dem AVSBench-semantischen Benchmark aufgeteilt, nämlich AVSBench-OV. Umfangreiche Experimente zeigen die starke Segmentierungs- und Null-Shot-Verallgemeinerungsfähigkeit unseres Modells für alle Kategorien. Auf dem AVSBench-OV-Datensatz erreicht OV-AVSS 55,43% mIoU bei Basis-Kategorien und 29,14% mIoU bei neuen Kategorien, was die state-of-the-art Null-Shot-Methode um 41,88%/20,61% und die offene Vokabelmethode um 10,2%/11,6% übertrifft. Der Code ist verfügbar unter https://github.com/ruohaoguo/ovavss.
English
Audio-visual semantic segmentation (AVSS) aims to segment and classify
sounding objects in videos with acoustic cues. However, most approaches operate
on the close-set assumption and only identify pre-defined categories from
training data, lacking the generalization ability to detect novel categories in
practical applications. In this paper, we introduce a new task: open-vocabulary
audio-visual semantic segmentation, extending AVSS task to open-world scenarios
beyond the annotated label space. This is a more challenging task that requires
recognizing all categories, even those that have never been seen nor heard
during training. Moreover, we propose the first open-vocabulary AVSS framework,
OV-AVSS, which mainly consists of two parts: 1) a universal sound source
localization module to perform audio-visual fusion and locate all potential
sounding objects and 2) an open-vocabulary classification module to predict
categories with the help of the prior knowledge from large-scale pre-trained
vision-language models. To properly evaluate the open-vocabulary AVSS, we split
zero-shot training and testing subsets based on the AVSBench-semantic
benchmark, namely AVSBench-OV. Extensive experiments demonstrate the strong
segmentation and zero-shot generalization ability of our model on all
categories. On the AVSBench-OV dataset, OV-AVSS achieves 55.43% mIoU on base
categories and 29.14% mIoU on novel categories, exceeding the state-of-the-art
zero-shot method by 41.88%/20.61% and open-vocabulary method by 10.2%/11.6%.
The code is available at https://github.com/ruohaoguo/ovavss.Summary
AI-Generated Summary