ChatPaper.aiChatPaper

참조 오디오-비주얼 세그멘테이션에서의 전모달적 표현과 추론을 향하여

Towards Omnimodal Expressions and Reasoning in Referring Audio-Visual Segmentation

July 30, 2025
저자: Kaining Ying, Henghui Ding, Guanquan Jie, Yu-Gang Jiang
cs.AI

초록

오디오-비주얼 세그멘테이션(RAVS)은 최근 상당한 발전을 이루었으나, 다중 모달 정보의 통합과 오디오-비주얼 콘텐츠의 심층적인 이해 및 추론에 있어 여전히 과제가 남아 있습니다. RAVS의 한계를 확장하고 이 분야의 미래 연구를 촉진하기 위해, 우리는 2,098개의 비디오와 59,458개의 다중 모달 참조 표현을 포함한 새로운 데이터셋인 Omnimodal Referring Audio-Visual Segmentation(OmniAVS)를 제안합니다. OmniAVS는 세 가지 주요 혁신으로 두드러집니다: (1) 텍스트, 음성, 소리, 시각적 단서를 유연하게 결합한 8가지 유형의 다중 모달 표현; (2) 단순히 오디오의 존재를 감지하는 것을 넘어 오디오 콘텐츠를 이해하는 데 중점을 둠; (3) 복잡한 추론과 세계 지식을 표현에 포함시킴. 또한, OmniAVS에서 다중 모달 추론과 오디오-비주얼 콘텐츠의 세밀한 이해의 과제를 해결하기 위해 Omnimodal Instructed Segmentation Assistant(OISA)를 소개합니다. OISA는 MLLM을 사용하여 복잡한 단서를 이해하고 추론 기반 세그멘테이션을 수행합니다. 광범위한 실험을 통해 OISA가 OmniAVS에서 기존 방법들을 능가하며, 다른 관련 작업에서도 경쟁력 있는 결과를 달성함을 보여줍니다.
English
Referring audio-visual segmentation (RAVS) has recently seen significant advancements, yet challenges remain in integrating multimodal information and deeply understanding and reasoning about audiovisual content. To extend the boundaries of RAVS and facilitate future research in this field, we propose Omnimodal Referring Audio-Visual Segmentation (OmniAVS), a new dataset containing 2,098 videos and 59,458 multimodal referring expressions. OmniAVS stands out with three key innovations: (1) 8 types of multimodal expressions that flexibly combine text, speech, sound, and visual cues; (2) an emphasis on understanding audio content beyond just detecting their presence; and (3) the inclusion of complex reasoning and world knowledge in expressions. Furthermore, we introduce Omnimodal Instructed Segmentation Assistant (OISA), to address the challenges of multimodal reasoning and fine-grained understanding of audiovisual content in OmniAVS. OISA uses MLLM to comprehend complex cues and perform reasoning-based segmentation. Extensive experiments show that OISA outperforms existing methods on OmniAVS and achieves competitive results on other related tasks.
PDF72July 31, 2025