ChatPaper.aiChatPaper

Hin zu omnimodalen Ausdrücken und Schlussfolgerungen in der referenziellen Audio-Visuellen Segmentierung

Towards Omnimodal Expressions and Reasoning in Referring Audio-Visual Segmentation

July 30, 2025
papers.authors: Kaining Ying, Henghui Ding, Guanquan Jie, Yu-Gang Jiang
cs.AI

papers.abstract

Die referenzielle audiovisuelle Segmentierung (RAVS) hat in letzter Zeit bedeutende Fortschritte erzielt, doch bestehen weiterhin Herausforderungen bei der Integration multimodaler Informationen sowie beim tiefgreifenden Verständnis und der Schlussfolgerung von audiovisuellen Inhalten. Um die Grenzen von RAVS zu erweitern und zukünftige Forschung in diesem Bereich zu fördern, schlagen wir Omnimodal Referring Audio-Visual Segmentation (OmniAVS) vor, einen neuen Datensatz, der 2.098 Videos und 59.458 multimodale Referenzausdrücke enthält. OmniAVS zeichnet sich durch drei wesentliche Innovationen aus: (1) 8 Arten multimodaler Ausdrücke, die Text, Sprache, Klang und visuelle Hinweise flexibel kombinieren; (2) eine Betonung des Verständnisses von Audioinhalten über die bloße Erkennung ihrer Anwesenheit hinaus; und (3) die Einbeziehung komplexer Schlussfolgerungen und Weltwissen in den Ausdrücken. Darüber hinaus stellen wir den Omnimodal Instructed Segmentation Assistant (OISA) vor, um die Herausforderungen multimodaler Schlussfolgerungen und des feingranularen Verständnisses audiovisueller Inhalte in OmniAVS zu bewältigen. OISA nutzt MLLM, um komplexe Hinweise zu verstehen und eine auf Schlussfolgerungen basierte Segmentierung durchzuführen. Umfangreiche Experimente zeigen, dass OISA bestehende Methoden auf OmniAVS übertrifft und wettbewerbsfähige Ergebnisse bei anderen verwandten Aufgaben erzielt.
English
Referring audio-visual segmentation (RAVS) has recently seen significant advancements, yet challenges remain in integrating multimodal information and deeply understanding and reasoning about audiovisual content. To extend the boundaries of RAVS and facilitate future research in this field, we propose Omnimodal Referring Audio-Visual Segmentation (OmniAVS), a new dataset containing 2,098 videos and 59,458 multimodal referring expressions. OmniAVS stands out with three key innovations: (1) 8 types of multimodal expressions that flexibly combine text, speech, sound, and visual cues; (2) an emphasis on understanding audio content beyond just detecting their presence; and (3) the inclusion of complex reasoning and world knowledge in expressions. Furthermore, we introduce Omnimodal Instructed Segmentation Assistant (OISA), to address the challenges of multimodal reasoning and fine-grained understanding of audiovisual content in OmniAVS. OISA uses MLLM to comprehend complex cues and perform reasoning-based segmentation. Extensive experiments show that OISA outperforms existing methods on OmniAVS and achieves competitive results on other related tasks.
PDF82July 31, 2025