Ref-AVS: 오디오-비주얼 장면에서 객체 참조 및 분할
Ref-AVS: Refer and Segment Objects in Audio-Visual Scenes
July 15, 2024
저자: Yaoting Wang, Peiwen Sun, Dongzhan Zhou, Guangyao Li, Honggang Zhang, Di Hu
cs.AI
초록
기존의 참조 분할(reference segmentation) 작업은 주로 무음의 시각적 장면에 초점을 맞추어 왔으며, 인간 경험에서 중요한 역할을 하는 다중 모드(multimodal) 인식과 상호작용을 간과해 왔습니다. 본 연구에서는 시각적 영역 내 객체를 다중 모드 단서를 포함한 표현을 기반으로 분할하는 새로운 작업인 참조 오디오-비주얼 분할(Reference Audio-Visual Segmentation, Ref-AVS)을 소개합니다. 이러한 표현은 자연어 형태로 표현되지만, 오디오 및 시각적 설명을 포함한 다중 모드 단서로 풍부하게 구성됩니다. 이 연구를 지원하기 위해, 우리는 해당 다중 모드 단서 표현에서 설명된 객체에 대한 픽셀 수준의 주석을 제공하는 최초의 Ref-AVS 벤치마크를 구축했습니다. Ref-AVS 작업을 해결하기 위해, 우리는 다중 모드 단서를 적절히 활용하여 정확한 분할 지침을 제공하는 새로운 방법을 제안합니다. 마지막으로, 우리는 세 가지 테스트 하위 집합에서 양적 및 질적 실험을 수행하여 우리의 접근 방식을 관련 작업의 기존 방법과 비교합니다. 결과는 우리의 방법이 다중 모드 단서 표현을 사용하여 객체를 정확하게 분할할 수 있는 능력을 강조하며, 그 효과성을 입증합니다. 데이터셋은 https://gewu-lab.github.io/Ref-AVS{https://gewu-lab.github.io/Ref-AVS}에서 확인할 수 있습니다.
English
Traditional reference segmentation tasks have predominantly focused on silent
visual scenes, neglecting the integral role of multimodal perception and
interaction in human experiences. In this work, we introduce a novel task
called Reference Audio-Visual Segmentation (Ref-AVS), which seeks to segment
objects within the visual domain based on expressions containing multimodal
cues. Such expressions are articulated in natural language forms but are
enriched with multimodal cues, including audio and visual descriptions. To
facilitate this research, we construct the first Ref-AVS benchmark, which
provides pixel-level annotations for objects described in corresponding
multimodal-cue expressions. To tackle the Ref-AVS task, we propose a new method
that adequately utilizes multimodal cues to offer precise segmentation
guidance. Finally, we conduct quantitative and qualitative experiments on three
test subsets to compare our approach with existing methods from related tasks.
The results demonstrate the effectiveness of our method, highlighting its
capability to precisely segment objects using multimodal-cue expressions.
Dataset is available at
https://gewu-lab.github.io/Ref-AVS{https://gewu-lab.github.io/Ref-AVS}.Summary
AI-Generated Summary