オーディオビジュアル参照セグメンテーションにおけるオムニモーダル表現と推論に向けて
Towards Omnimodal Expressions and Reasoning in Referring Audio-Visual Segmentation
July 30, 2025
著者: Kaining Ying, Henghui Ding, Guanquan Jie, Yu-Gang Jiang
cs.AI
要旨
音声視覚的セグメンテーション(RAVS)は最近大きな進展を遂げているが、マルチモーダル情報の統合や音声視覚コンテンツの深い理解と推論において依然として課題が残っている。RAVSの境界を拡張し、この分野の将来の研究を促進するため、我々はOmnimodal Referring Audio-Visual Segmentation(OmniAVS)を提案する。これは2,098本の動画と59,458のマルチモーダル参照表現を含む新しいデータセットである。OmniAVSは以下の3つの主要な革新点を特徴とする:(1) テキスト、音声、サウンド、視覚的キューを柔軟に組み合わせた8種類のマルチモーダル表現、(2) 音声の存在を検出するだけでなく、その内容を理解することに重点を置くこと、(3) 複雑な推論と世界知識を表現に含めること。さらに、OmniAVSにおけるマルチモーダル推論と音声視覚コンテンツの細かい理解の課題に対処するため、Omnimodal Instructed Segmentation Assistant(OISA)を導入する。OISAはMLLMを使用して複雑なキューを理解し、推論に基づくセグメンテーションを実行する。大規模な実験により、OISAがOmniAVSにおいて既存の手法を上回り、他の関連タスクでも競争力のある結果を達成することが示された。
English
Referring audio-visual segmentation (RAVS) has recently seen significant
advancements, yet challenges remain in integrating multimodal information and
deeply understanding and reasoning about audiovisual content. To extend the
boundaries of RAVS and facilitate future research in this field, we propose
Omnimodal Referring Audio-Visual Segmentation (OmniAVS), a new dataset
containing 2,098 videos and 59,458 multimodal referring expressions. OmniAVS
stands out with three key innovations: (1) 8 types of multimodal expressions
that flexibly combine text, speech, sound, and visual cues; (2) an emphasis on
understanding audio content beyond just detecting their presence; and (3) the
inclusion of complex reasoning and world knowledge in expressions. Furthermore,
we introduce Omnimodal Instructed Segmentation Assistant (OISA), to address the
challenges of multimodal reasoning and fine-grained understanding of
audiovisual content in OmniAVS. OISA uses MLLM to comprehend complex cues and
perform reasoning-based segmentation. Extensive experiments show that OISA
outperforms existing methods on OmniAVS and achieves competitive results on
other related tasks.