Hin zu omnimodalen Ausdrücken und Schlussfolgerungen in der referenziellen Audio-Visuellen Segmentierung
Towards Omnimodal Expressions and Reasoning in Referring Audio-Visual Segmentation
July 30, 2025
papers.authors: Kaining Ying, Henghui Ding, Guanquan Jie, Yu-Gang Jiang
cs.AI
papers.abstract
Die referenzielle audiovisuelle Segmentierung (RAVS) hat in letzter Zeit bedeutende Fortschritte erzielt, doch bestehen weiterhin Herausforderungen bei der Integration multimodaler Informationen sowie beim tiefgreifenden Verständnis und der Schlussfolgerung von audiovisuellen Inhalten. Um die Grenzen von RAVS zu erweitern und zukünftige Forschung in diesem Bereich zu fördern, schlagen wir Omnimodal Referring Audio-Visual Segmentation (OmniAVS) vor, einen neuen Datensatz, der 2.098 Videos und 59.458 multimodale Referenzausdrücke enthält. OmniAVS zeichnet sich durch drei wesentliche Innovationen aus: (1) 8 Arten multimodaler Ausdrücke, die Text, Sprache, Klang und visuelle Hinweise flexibel kombinieren; (2) eine Betonung des Verständnisses von Audioinhalten über die bloße Erkennung ihrer Anwesenheit hinaus; und (3) die Einbeziehung komplexer Schlussfolgerungen und Weltwissen in den Ausdrücken. Darüber hinaus stellen wir den Omnimodal Instructed Segmentation Assistant (OISA) vor, um die Herausforderungen multimodaler Schlussfolgerungen und des feingranularen Verständnisses audiovisueller Inhalte in OmniAVS zu bewältigen. OISA nutzt MLLM, um komplexe Hinweise zu verstehen und eine auf Schlussfolgerungen basierte Segmentierung durchzuführen. Umfangreiche Experimente zeigen, dass OISA bestehende Methoden auf OmniAVS übertrifft und wettbewerbsfähige Ergebnisse bei anderen verwandten Aufgaben erzielt.
English
Referring audio-visual segmentation (RAVS) has recently seen significant
advancements, yet challenges remain in integrating multimodal information and
deeply understanding and reasoning about audiovisual content. To extend the
boundaries of RAVS and facilitate future research in this field, we propose
Omnimodal Referring Audio-Visual Segmentation (OmniAVS), a new dataset
containing 2,098 videos and 59,458 multimodal referring expressions. OmniAVS
stands out with three key innovations: (1) 8 types of multimodal expressions
that flexibly combine text, speech, sound, and visual cues; (2) an emphasis on
understanding audio content beyond just detecting their presence; and (3) the
inclusion of complex reasoning and world knowledge in expressions. Furthermore,
we introduce Omnimodal Instructed Segmentation Assistant (OISA), to address the
challenges of multimodal reasoning and fine-grained understanding of
audiovisual content in OmniAVS. OISA uses MLLM to comprehend complex cues and
perform reasoning-based segmentation. Extensive experiments show that OISA
outperforms existing methods on OmniAVS and achieves competitive results on
other related tasks.