Сегментация семантики аудио-визуальных данных с открытым словарем
Open-Vocabulary Audio-Visual Semantic Segmentation
July 31, 2024
Авторы: Ruohao Guo, Liao Qu, Dantong Niu, Yanyu Qi, Wenzhen Yue, Ji Shi, Bowei Xing, Xianghua Ying
cs.AI
Аннотация
Аудиовизуальная семантическая сегментация (AVSS) направлена на сегментацию и классификацию звуковых объектов в видео с акустическими подсказками. Однако большинство подходов оперируют на предположении о близких множествах и только идентифицируют заранее определенные категории из обучающих данных, лишаясь обобщающей способности обнаруживать новые категории в практических приложениях. В данной статье мы представляем новую задачу: открытую аудиовизуальную семантическую сегментацию, расширяя задачу AVSS до сценариев открытого мира за пределами аннотированного пространства меток. Это более сложная задача, требующая распознавания всех категорий, даже тех, которые никогда не были видены или услышаны во время обучения. Более того, мы предлагаем первую открытую аудиовизуальную семантическую сегментацию с расширенным словарем, OV-AVSS, которая в основном состоит из двух частей: 1) универсального модуля локализации источника звука для выполнения аудиовизуального слияния и определения всех потенциальных звуковых объектов и 2) модуля классификации с открытым словарем для предсказания категорий с помощью предварительных знаний из масштабных предварительно обученных моделей видео-языка. Для правильной оценки открытой аудиовизуальной семантической сегментации мы разделили обучающие и тестовые подмножества нулевого шага на основе бенчмарка AVSBench-semantic, именуемого AVSBench-OV. Обширные эксперименты демонстрируют сильную сегментацию и способность к нулевому обобщению нашей модели на всех категориях. На наборе данных AVSBench-OV OV-AVSS достигает 55.43% mIoU на базовых категориях и 29.14% mIoU на новых категориях, превосходя метод нулевого шага на 41.88%/20.61% и метод с открытым словарем на 10.2%/11.6%. Код доступен по ссылке https://github.com/ruohaoguo/ovavss.
English
Audio-visual semantic segmentation (AVSS) aims to segment and classify
sounding objects in videos with acoustic cues. However, most approaches operate
on the close-set assumption and only identify pre-defined categories from
training data, lacking the generalization ability to detect novel categories in
practical applications. In this paper, we introduce a new task: open-vocabulary
audio-visual semantic segmentation, extending AVSS task to open-world scenarios
beyond the annotated label space. This is a more challenging task that requires
recognizing all categories, even those that have never been seen nor heard
during training. Moreover, we propose the first open-vocabulary AVSS framework,
OV-AVSS, which mainly consists of two parts: 1) a universal sound source
localization module to perform audio-visual fusion and locate all potential
sounding objects and 2) an open-vocabulary classification module to predict
categories with the help of the prior knowledge from large-scale pre-trained
vision-language models. To properly evaluate the open-vocabulary AVSS, we split
zero-shot training and testing subsets based on the AVSBench-semantic
benchmark, namely AVSBench-OV. Extensive experiments demonstrate the strong
segmentation and zero-shot generalization ability of our model on all
categories. On the AVSBench-OV dataset, OV-AVSS achieves 55.43% mIoU on base
categories and 29.14% mIoU on novel categories, exceeding the state-of-the-art
zero-shot method by 41.88%/20.61% and open-vocabulary method by 10.2%/11.6%.
The code is available at https://github.com/ruohaoguo/ovavss.Summary
AI-Generated Summary