オープン語彙オーディオビジュアル意味分割
Open-Vocabulary Audio-Visual Semantic Segmentation
July 31, 2024
著者: Ruohao Guo, Liao Qu, Dantong Niu, Yanyu Qi, Wenzhen Yue, Ji Shi, Bowei Xing, Xianghua Ying
cs.AI
要旨
音響視覚的セマンティックセグメンテーション(AVSS)は、音響的キューを用いてビデオ内の音源オブジェクトをセグメント化し分類することを目的としています。しかし、ほとんどのアプローチは閉じた集合の仮定に基づいて動作し、トレーニングデータから事前に定義されたカテゴリのみを識別するため、実用的なアプリケーションにおける新規カテゴリの検出に対する汎化能力が欠如しています。本論文では、新しいタスクとしてオープンボキャブラリー音響視覚的セマンティックセグメンテーションを導入し、AVSSタスクを注釈されたラベル空間を超えたオープンワールドシナリオに拡張します。これは、トレーニング中に見たことも聞いたこともないカテゴリを含むすべてのカテゴリを認識する必要がある、より挑戦的なタスクです。さらに、最初のオープンボキャブラリーAVSSフレームワークであるOV-AVSSを提案します。このフレームワークは主に2つの部分で構成されています:1)音響視覚的融合を実行し、すべての潜在的な音源オブジェクトを特定するユニバーサル音源ローカライゼーションモジュール、2)大規模事前学習済み視覚言語モデルからの事前知識を活用してカテゴリを予測するオープンボキャブラリー分類モジュールです。オープンボキャブラリーAVSSを適切に評価するために、AVSBench-semanticベンチマークに基づいてゼロショットトレーニングとテストサブセットを分割し、AVSBench-OVと名付けました。広範な実験により、我々のモデルがすべてのカテゴリにおいて強力なセグメンテーション能力とゼロショット汎化能力を発揮することが実証されました。AVSBench-OVデータセットにおいて、OV-AVSSはベースカテゴリで55.43%のmIoU、新規カテゴリで29.14%のmIoUを達成し、最先端のゼロショット手法を41.88%/20.61%、オープンボキャブラリー手法を10.2%/11.6%上回りました。コードはhttps://github.com/ruohaoguo/ovavssで公開されています。
English
Audio-visual semantic segmentation (AVSS) aims to segment and classify
sounding objects in videos with acoustic cues. However, most approaches operate
on the close-set assumption and only identify pre-defined categories from
training data, lacking the generalization ability to detect novel categories in
practical applications. In this paper, we introduce a new task: open-vocabulary
audio-visual semantic segmentation, extending AVSS task to open-world scenarios
beyond the annotated label space. This is a more challenging task that requires
recognizing all categories, even those that have never been seen nor heard
during training. Moreover, we propose the first open-vocabulary AVSS framework,
OV-AVSS, which mainly consists of two parts: 1) a universal sound source
localization module to perform audio-visual fusion and locate all potential
sounding objects and 2) an open-vocabulary classification module to predict
categories with the help of the prior knowledge from large-scale pre-trained
vision-language models. To properly evaluate the open-vocabulary AVSS, we split
zero-shot training and testing subsets based on the AVSBench-semantic
benchmark, namely AVSBench-OV. Extensive experiments demonstrate the strong
segmentation and zero-shot generalization ability of our model on all
categories. On the AVSBench-OV dataset, OV-AVSS achieves 55.43% mIoU on base
categories and 29.14% mIoU on novel categories, exceeding the state-of-the-art
zero-shot method by 41.88%/20.61% and open-vocabulary method by 10.2%/11.6%.
The code is available at https://github.com/ruohaoguo/ovavss.Summary
AI-Generated Summary