ChatPaper.aiChatPaper

К универсальным выражениям и рассуждениям в сегментации аудиовизуальных данных с референцией

Towards Omnimodal Expressions and Reasoning in Referring Audio-Visual Segmentation

July 30, 2025
Авторы: Kaining Ying, Henghui Ding, Guanquan Jie, Yu-Gang Jiang
cs.AI

Аннотация

Сегментация аудиовизуальных данных с использованием ссылок (RAVS) в последнее время достигла значительных успехов, однако остаются проблемы в интеграции мультимодальной информации и глубоком понимании и анализе аудиовизуального контента. Для расширения границ RAVS и содействия будущим исследованиям в этой области мы предлагаем Omnimodal Referring Audio-Visual Segmentation (OmniAVS) — новый набор данных, содержащий 2098 видео и 59 458 мультимодальных ссылочных выражений. OmniAVS выделяется тремя ключевыми инновациями: (1) 8 типов мультимодальных выражений, гибко сочетающих текст, речь, звук и визуальные подсказки; (2) акцент на понимании аудиоконтента, выходящем за рамки простого обнаружения его присутствия; и (3) включение сложных рассуждений и знаний о мире в выражения. Кроме того, мы представляем Omnimodal Instructed Segmentation Assistant (OISA), предназначенный для решения задач мультимодального анализа и детального понимания аудиовизуального контента в OmniAVS. OISA использует MLLM для понимания сложных подсказок и выполнения сегментации на основе рассуждений. Многочисленные эксперименты показывают, что OISA превосходит существующие методы на OmniAVS и демонстрирует конкурентоспособные результаты в других связанных задачах.
English
Referring audio-visual segmentation (RAVS) has recently seen significant advancements, yet challenges remain in integrating multimodal information and deeply understanding and reasoning about audiovisual content. To extend the boundaries of RAVS and facilitate future research in this field, we propose Omnimodal Referring Audio-Visual Segmentation (OmniAVS), a new dataset containing 2,098 videos and 59,458 multimodal referring expressions. OmniAVS stands out with three key innovations: (1) 8 types of multimodal expressions that flexibly combine text, speech, sound, and visual cues; (2) an emphasis on understanding audio content beyond just detecting their presence; and (3) the inclusion of complex reasoning and world knowledge in expressions. Furthermore, we introduce Omnimodal Instructed Segmentation Assistant (OISA), to address the challenges of multimodal reasoning and fine-grained understanding of audiovisual content in OmniAVS. OISA uses MLLM to comprehend complex cues and perform reasoning-based segmentation. Extensive experiments show that OISA outperforms existing methods on OmniAVS and achieves competitive results on other related tasks.
PDF82July 31, 2025