Naar Omnimodale Expressies en Redenering in Refererende Audio-Visuele Segmentatie
Towards Omnimodal Expressions and Reasoning in Referring Audio-Visual Segmentation
July 30, 2025
Auteurs: Kaining Ying, Henghui Ding, Guanquan Jie, Yu-Gang Jiang
cs.AI
Samenvatting
Audio-visuele verwijzingssegmentatie (RAVS) heeft recentelijk aanzienlijke vooruitgang geboekt, maar er blijven uitdagingen bestaan in het integreren van multimodale informatie en het diepgaand begrijpen en redeneren over audio-visuele inhoud. Om de grenzen van RAVS te verleggen en toekomstig onderzoek op dit gebied te faciliteren, stellen we Omnimodale Verwijzende Audio-Visuele Segmentatie (OmniAVS) voor, een nieuwe dataset met 2.098 video's en 59.458 multimodale verwijzingsexpressies. OmniAVS onderscheidt zich door drie belangrijke innovaties: (1) 8 soorten multimodale expressies die tekst, spraak, geluid en visuele aanwijzingen flexibel combineren; (2) een nadruk op het begrijpen van audio-inhoud, verder dan alleen het detecteren van hun aanwezigheid; en (3) de integratie van complex redeneren en wereldkennis in expressies. Bovendien introduceren we de Omnimodale Geïnstrueerde Segmentatie-assistent (OISA), om de uitdagingen van multimodaal redeneren en fijnmazig begrip van audio-visuele inhoud in OmniAVS aan te pakken. OISA gebruikt MLLM om complexe aanwijzingen te begrijpen en op redenering gebaseerde segmentatie uit te voeren. Uitgebreide experimenten tonen aan dat OISA bestaande methoden op OmniAVS overtreft en competitieve resultaten behaalt op andere gerelateerde taken.
English
Referring audio-visual segmentation (RAVS) has recently seen significant
advancements, yet challenges remain in integrating multimodal information and
deeply understanding and reasoning about audiovisual content. To extend the
boundaries of RAVS and facilitate future research in this field, we propose
Omnimodal Referring Audio-Visual Segmentation (OmniAVS), a new dataset
containing 2,098 videos and 59,458 multimodal referring expressions. OmniAVS
stands out with three key innovations: (1) 8 types of multimodal expressions
that flexibly combine text, speech, sound, and visual cues; (2) an emphasis on
understanding audio content beyond just detecting their presence; and (3) the
inclusion of complex reasoning and world knowledge in expressions. Furthermore,
we introduce Omnimodal Instructed Segmentation Assistant (OISA), to address the
challenges of multimodal reasoning and fine-grained understanding of
audiovisual content in OmniAVS. OISA uses MLLM to comprehend complex cues and
perform reasoning-based segmentation. Extensive experiments show that OISA
outperforms existing methods on OmniAVS and achieves competitive results on
other related tasks.