Em Direção a Expressões e Raciocínio Omnimodais na Segmentação Áudio-Visual Referencial
Towards Omnimodal Expressions and Reasoning in Referring Audio-Visual Segmentation
July 30, 2025
Autores: Kaining Ying, Henghui Ding, Guanquan Jie, Yu-Gang Jiang
cs.AI
Resumo
A segmentação audiovisual referencial (RAVS, do inglês Referring Audio-Visual Segmentation) tem apresentado avanços significativos recentemente, mas ainda existem desafios na integração de informações multimodais e na compreensão e raciocínio profundo sobre o conteúdo audiovisual. Para expandir os limites da RAVS e facilitar pesquisas futuras nessa área, propomos a Segmentação Audiovisual Referencial Omnimodal (OmniAVS), um novo conjunto de dados contendo 2.098 vídeos e 59.458 expressões referenciais multimodais. O OmniAVS se destaca por três inovações principais: (1) 8 tipos de expressões multimodais que combinam de forma flexível texto, fala, som e pistas visuais; (2) uma ênfase na compreensão do conteúdo de áudio, indo além da simples detecção de sua presença; e (3) a inclusão de raciocínio complexo e conhecimento do mundo nas expressões. Além disso, introduzimos o Assistente de Segmentação Instruído Omnimodal (OISA, do inglês Omnimodal Instructed Segmentation Assistant), para abordar os desafios de raciocínio multimodal e compreensão refinada do conteúdo audiovisual no OmniAVS. O OISA utiliza MLLM (Modelos de Linguagem Multimodal) para compreender pistas complexas e realizar segmentação baseada em raciocínio. Experimentos extensivos mostram que o OISA supera métodos existentes no OmniAVS e alcança resultados competitivos em outras tarefas relacionadas.
English
Referring audio-visual segmentation (RAVS) has recently seen significant
advancements, yet challenges remain in integrating multimodal information and
deeply understanding and reasoning about audiovisual content. To extend the
boundaries of RAVS and facilitate future research in this field, we propose
Omnimodal Referring Audio-Visual Segmentation (OmniAVS), a new dataset
containing 2,098 videos and 59,458 multimodal referring expressions. OmniAVS
stands out with three key innovations: (1) 8 types of multimodal expressions
that flexibly combine text, speech, sound, and visual cues; (2) an emphasis on
understanding audio content beyond just detecting their presence; and (3) the
inclusion of complex reasoning and world knowledge in expressions. Furthermore,
we introduce Omnimodal Instructed Segmentation Assistant (OISA), to address the
challenges of multimodal reasoning and fine-grained understanding of
audiovisual content in OmniAVS. OISA uses MLLM to comprehend complex cues and
perform reasoning-based segmentation. Extensive experiments show that OISA
outperforms existing methods on OmniAVS and achieves competitive results on
other related tasks.