ChatPaper.aiChatPaper

Naar Omnimodale Expressies en Redenering in Refererende Audio-Visuele Segmentatie

Towards Omnimodal Expressions and Reasoning in Referring Audio-Visual Segmentation

July 30, 2025
Auteurs: Kaining Ying, Henghui Ding, Guanquan Jie, Yu-Gang Jiang
cs.AI

Samenvatting

Audio-visuele verwijzingssegmentatie (RAVS) heeft recentelijk aanzienlijke vooruitgang geboekt, maar er blijven uitdagingen bestaan in het integreren van multimodale informatie en het diepgaand begrijpen en redeneren over audio-visuele inhoud. Om de grenzen van RAVS te verleggen en toekomstig onderzoek op dit gebied te faciliteren, stellen we Omnimodale Verwijzende Audio-Visuele Segmentatie (OmniAVS) voor, een nieuwe dataset met 2.098 video's en 59.458 multimodale verwijzingsexpressies. OmniAVS onderscheidt zich door drie belangrijke innovaties: (1) 8 soorten multimodale expressies die tekst, spraak, geluid en visuele aanwijzingen flexibel combineren; (2) een nadruk op het begrijpen van audio-inhoud, verder dan alleen het detecteren van hun aanwezigheid; en (3) de integratie van complex redeneren en wereldkennis in expressies. Bovendien introduceren we de Omnimodale Geïnstrueerde Segmentatie-assistent (OISA), om de uitdagingen van multimodaal redeneren en fijnmazig begrip van audio-visuele inhoud in OmniAVS aan te pakken. OISA gebruikt MLLM om complexe aanwijzingen te begrijpen en op redenering gebaseerde segmentatie uit te voeren. Uitgebreide experimenten tonen aan dat OISA bestaande methoden op OmniAVS overtreft en competitieve resultaten behaalt op andere gerelateerde taken.
English
Referring audio-visual segmentation (RAVS) has recently seen significant advancements, yet challenges remain in integrating multimodal information and deeply understanding and reasoning about audiovisual content. To extend the boundaries of RAVS and facilitate future research in this field, we propose Omnimodal Referring Audio-Visual Segmentation (OmniAVS), a new dataset containing 2,098 videos and 59,458 multimodal referring expressions. OmniAVS stands out with three key innovations: (1) 8 types of multimodal expressions that flexibly combine text, speech, sound, and visual cues; (2) an emphasis on understanding audio content beyond just detecting their presence; and (3) the inclusion of complex reasoning and world knowledge in expressions. Furthermore, we introduce Omnimodal Instructed Segmentation Assistant (OISA), to address the challenges of multimodal reasoning and fine-grained understanding of audiovisual content in OmniAVS. OISA uses MLLM to comprehend complex cues and perform reasoning-based segmentation. Extensive experiments show that OISA outperforms existing methods on OmniAVS and achieves competitive results on other related tasks.
PDF92July 31, 2025