오픈-보캐블러리 오디오-비주얼 시맨틱 세그멘테이션
Open-Vocabulary Audio-Visual Semantic Segmentation
July 31, 2024
저자: Ruohao Guo, Liao Qu, Dantong Niu, Yanyu Qi, Wenzhen Yue, Ji Shi, Bowei Xing, Xianghua Ying
cs.AI
초록
오디오-비주얼 시맨틱 세그멘테이션(AVSS)은 비디오에서 소리 내는 객체를 음향적 단서를 통해 분할하고 분류하는 것을 목표로 합니다. 그러나 대부분의 접근 방식은 닫힌 집합(close-set) 가정 하에서 작동하며, 훈련 데이터에서 미리 정의된 범주만을 식별할 뿐 실제 응용에서 새로운 범주를 탐지하는 일반화 능력이 부족합니다. 본 논문에서는 새로운 과제인 오픈-보컬러리 오디오-비주얼 시맨틱 세그멘테이션을 소개합니다. 이는 AVSS 과제를 주석된 레이블 공간을 넘어 오픈-월드 시나리오로 확장한 것으로, 훈련 중에 본 적도 들은 적도 없는 모든 범주를 인식해야 하는 더욱 도전적인 과제입니다. 또한, 우리는 첫 번째 오픈-보컬러리 AVSS 프레임워크인 OV-AVSS를 제안합니다. 이 프레임워크는 주로 두 부분으로 구성됩니다: 1) 모든 잠재적 소리 내는 객체를 찾기 위해 오디오-비주얼 융합을 수행하는 범용 음원 위치 탐지 모듈과 2) 대규모 사전 훈련된 비전-언어 모델의 사전 지식을 활용하여 범주를 예측하는 오픈-보컬러리 분류 모듈입니다. 오픈-보컬러리 AVSS를 적절히 평가하기 위해, 우리는 AVSBench-시맨틱 벤치마크를 기반으로 제로-샷 훈련 및 테스트 하위 집합을 분할하여 AVSBench-OV를 구성했습니다. 광범위한 실험을 통해 우리 모델이 모든 범주에서 강력한 세그멘테이션 및 제로-샷 일반화 능력을 보여줌을 입증했습니다. AVSBench-OV 데이터셋에서 OV-AVSS는 기본 범주에서 55.43% mIoU, 새로운 범주에서 29.14% mIoU를 달성하며, 최신 제로-샷 방법을 41.88%/20.61%, 오픈-보컬러리 방법을 10.2%/11.6% 능가했습니다. 코드는 https://github.com/ruohaoguo/ovavss에서 확인할 수 있습니다.
English
Audio-visual semantic segmentation (AVSS) aims to segment and classify
sounding objects in videos with acoustic cues. However, most approaches operate
on the close-set assumption and only identify pre-defined categories from
training data, lacking the generalization ability to detect novel categories in
practical applications. In this paper, we introduce a new task: open-vocabulary
audio-visual semantic segmentation, extending AVSS task to open-world scenarios
beyond the annotated label space. This is a more challenging task that requires
recognizing all categories, even those that have never been seen nor heard
during training. Moreover, we propose the first open-vocabulary AVSS framework,
OV-AVSS, which mainly consists of two parts: 1) a universal sound source
localization module to perform audio-visual fusion and locate all potential
sounding objects and 2) an open-vocabulary classification module to predict
categories with the help of the prior knowledge from large-scale pre-trained
vision-language models. To properly evaluate the open-vocabulary AVSS, we split
zero-shot training and testing subsets based on the AVSBench-semantic
benchmark, namely AVSBench-OV. Extensive experiments demonstrate the strong
segmentation and zero-shot generalization ability of our model on all
categories. On the AVSBench-OV dataset, OV-AVSS achieves 55.43% mIoU on base
categories and 29.14% mIoU on novel categories, exceeding the state-of-the-art
zero-shot method by 41.88%/20.61% and open-vocabulary method by 10.2%/11.6%.
The code is available at https://github.com/ruohaoguo/ovavss.Summary
AI-Generated Summary