Em Direção a Expressões e Raciocínio Omnimodais na Segmentação Áudio-Visual Referencial

Resumo

A segmentação audiovisual referencial (RAVS, do inglês Referring Audio-Visual Segmentation) tem apresentado avanços significativos recentemente, mas ainda existem desafios na integração de informações multimodais e na compreensão e raciocínio profundo sobre o conteúdo audiovisual. Para expandir os limites da RAVS e facilitar pesquisas futuras nessa área, propomos a Segmentação Audiovisual Referencial Omnimodal (OmniAVS), um novo conjunto de dados contendo 2.098 vídeos e 59.458 expressões referenciais multimodais. O OmniAVS se destaca por três inovações principais: (1) 8 tipos de expressões multimodais que combinam de forma flexível texto, fala, som e pistas visuais; (2) uma ênfase na compreensão do conteúdo de áudio, indo além da simples detecção de sua presença; e (3) a inclusão de raciocínio complexo e conhecimento do mundo nas expressões. Além disso, introduzimos o Assistente de Segmentação Instruído Omnimodal (OISA, do inglês Omnimodal Instructed Segmentation Assistant), para abordar os desafios de raciocínio multimodal e compreensão refinada do conteúdo audiovisual no OmniAVS. O OISA utiliza MLLM (Modelos de Linguagem Multimodal) para compreender pistas complexas e realizar segmentação baseada em raciocínio. Experimentos extensivos mostram que o OISA supera métodos existentes no OmniAVS e alcança resultados competitivos em outras tarefas relacionadas.

English

Referring audio-visual segmentation (RAVS) has recently seen significant advancements, yet challenges remain in integrating multimodal information and deeply understanding and reasoning about audiovisual content. To extend the boundaries of RAVS and facilitate future research in this field, we propose Omnimodal Referring Audio-Visual Segmentation (OmniAVS), a new dataset containing 2,098 videos and 59,458 multimodal referring expressions. OmniAVS stands out with three key innovations: (1) 8 types of multimodal expressions that flexibly combine text, speech, sound, and visual cues; (2) an emphasis on understanding audio content beyond just detecting their presence; and (3) the inclusion of complex reasoning and world knowledge in expressions. Furthermore, we introduce Omnimodal Instructed Segmentation Assistant (OISA), to address the challenges of multimodal reasoning and fine-grained understanding of audiovisual content in OmniAVS. OISA uses MLLM to comprehend complex cues and perform reasoning-based segmentation. Extensive experiments show that OISA outperforms existing methods on OmniAVS and achieves competitive results on other related tasks.

Em Direção a Expressões e Raciocínio Omnimodais na Segmentação Áudio-Visual Referencial

Towards Omnimodal Expressions and Reasoning in Referring Audio-Visual Segmentation

Resumo

Support