ChatPaper.aiChatPaper

Verso Espressioni e Ragionamento OmnimoDali nella Segmentazione Audio-Visiva di Riferimento

Towards Omnimodal Expressions and Reasoning in Referring Audio-Visual Segmentation

July 30, 2025
Autori: Kaining Ying, Henghui Ding, Guanquan Jie, Yu-Gang Jiang
cs.AI

Abstract

La segmentazione audio-visiva riferita (RAVS) ha recentemente registrato progressi significativi, ma permangono sfide nell'integrazione di informazioni multimodali e nella comprensione e ragionamento approfonditi sui contenuti audiovisivi. Per estendere i confini della RAVS e facilitare la ricerca futura in questo campo, proponiamo Omnimodal Referring Audio-Visual Segmentation (OmniAVS), un nuovo dataset contenente 2.098 video e 59.458 espressioni riferite multimodali. OmniAVS si distingue per tre innovazioni chiave: (1) 8 tipi di espressioni multimodali che combinano in modo flessibile testo, parlato, suono e segnali visivi; (2) un'enfasi sulla comprensione del contenuto audio oltre alla semplice rilevazione della sua presenza; e (3) l'inclusione di ragionamenti complessi e conoscenze del mondo nelle espressioni. Inoltre, introduciamo Omnimodal Instructed Segmentation Assistant (OISA), per affrontare le sfide del ragionamento multimodale e della comprensione fine dei contenuti audiovisivi in OmniAVS. OISA utilizza MLLM per comprendere segnali complessi ed eseguire segmentazioni basate sul ragionamento. Esperimenti estensivi dimostrano che OISA supera i metodi esistenti su OmniAVS e ottiene risultati competitivi su altre attività correlate.
English
Referring audio-visual segmentation (RAVS) has recently seen significant advancements, yet challenges remain in integrating multimodal information and deeply understanding and reasoning about audiovisual content. To extend the boundaries of RAVS and facilitate future research in this field, we propose Omnimodal Referring Audio-Visual Segmentation (OmniAVS), a new dataset containing 2,098 videos and 59,458 multimodal referring expressions. OmniAVS stands out with three key innovations: (1) 8 types of multimodal expressions that flexibly combine text, speech, sound, and visual cues; (2) an emphasis on understanding audio content beyond just detecting their presence; and (3) the inclusion of complex reasoning and world knowledge in expressions. Furthermore, we introduce Omnimodal Instructed Segmentation Assistant (OISA), to address the challenges of multimodal reasoning and fine-grained understanding of audiovisual content in OmniAVS. OISA uses MLLM to comprehend complex cues and perform reasoning-based segmentation. Extensive experiments show that OISA outperforms existing methods on OmniAVS and achieves competitive results on other related tasks.
PDF82July 31, 2025