Vers des expressions et raisonnements omnimodaux dans la segmentation audio-visuelle référencée
Towards Omnimodal Expressions and Reasoning in Referring Audio-Visual Segmentation
July 30, 2025
papers.authors: Kaining Ying, Henghui Ding, Guanquan Jie, Yu-Gang Jiang
cs.AI
papers.abstract
La segmentation audio-visuelle référencée (RAVS) a récemment connu des avancées significatives, mais des défis subsistent dans l'intégration d'informations multimodales et la compréhension approfondie ainsi que le raisonnement sur le contenu audiovisuel. Pour repousser les limites de la RAVS et faciliter les recherches futures dans ce domaine, nous proposons Omnimodal Referring Audio-Visual Segmentation (OmniAVS), un nouveau jeu de données contenant 2 098 vidéos et 59 458 expressions référentielles multimodales. OmniAVS se distingue par trois innovations clés : (1) 8 types d'expressions multimodales qui combinent de manière flexible texte, parole, son et indices visuels ; (2) un accent mis sur la compréhension du contenu audio au-delà de la simple détection de sa présence ; et (3) l'inclusion de raisonnements complexes et de connaissances du monde dans les expressions. Par ailleurs, nous introduisons Omnimodal Instructed Segmentation Assistant (OISA) pour relever les défis du raisonnement multimodal et de la compréhension fine du contenu audiovisuel dans OmniAVS. OISA utilise des modèles de langage multimodal (MLLM) pour comprendre les indices complexes et effectuer une segmentation basée sur le raisonnement. Des expériences approfondies montrent qu'OISA surpasse les méthodes existantes sur OmniAVS et obtient des résultats compétitifs sur d'autres tâches connexes.
English
Referring audio-visual segmentation (RAVS) has recently seen significant
advancements, yet challenges remain in integrating multimodal information and
deeply understanding and reasoning about audiovisual content. To extend the
boundaries of RAVS and facilitate future research in this field, we propose
Omnimodal Referring Audio-Visual Segmentation (OmniAVS), a new dataset
containing 2,098 videos and 59,458 multimodal referring expressions. OmniAVS
stands out with three key innovations: (1) 8 types of multimodal expressions
that flexibly combine text, speech, sound, and visual cues; (2) an emphasis on
understanding audio content beyond just detecting their presence; and (3) the
inclusion of complex reasoning and world knowledge in expressions. Furthermore,
we introduce Omnimodal Instructed Segmentation Assistant (OISA), to address the
challenges of multimodal reasoning and fine-grained understanding of
audiovisual content in OmniAVS. OISA uses MLLM to comprehend complex cues and
perform reasoning-based segmentation. Extensive experiments show that OISA
outperforms existing methods on OmniAVS and achieves competitive results on
other related tasks.