ChatPaper.aiChatPaper

Ref-AVS: Verwijs naar en segmenteer objecten in audio-visuele scènes

Ref-AVS: Refer and Segment Objects in Audio-Visual Scenes

July 15, 2024
Auteurs: Yaoting Wang, Peiwen Sun, Dongzhan Zhou, Guangyao Li, Honggang Zhang, Di Hu
cs.AI

Samenvatting

Traditionele referentiesegmentatietaken hebben zich voornamelijk gericht op stille visuele scènes, waarbij de integrale rol van multimodale perceptie en interactie in menselijke ervaringen werd verwaarloosd. In dit werk introduceren we een nieuwe taak genaamd Referentie Audio-Visuele Segmentatie (Ref-AVS), die tot doel heeft objecten binnen het visuele domein te segmenteren op basis van uitdrukkingen die multimodale signalen bevatten. Dergelijke uitdrukkingen worden geformuleerd in natuurlijke taalvormen, maar zijn verrijkt met multimodale signalen, waaronder audio- en visuele beschrijvingen. Om dit onderzoek te faciliteren, hebben we de eerste Ref-AVS benchmark geconstrueerd, die pixelniveau annotaties biedt voor objecten die worden beschreven in corresponderende multimodale-signaal uitdrukkingen. Om de Ref-AVS taak aan te pakken, stellen we een nieuwe methode voor die multimodale signalen adequaat benut om nauwkeurige segmentatiebegeleiding te bieden. Ten slotte voeren we kwantitatieve en kwalitatieve experimenten uit op drie testsubsets om onze aanpak te vergelijken met bestaande methoden uit gerelateerde taken. De resultaten tonen de effectiviteit van onze methode aan, waarbij het vermogen om objecten nauwkeurig te segmenteren met behulp van multimodale-signaal uitdrukkingen wordt benadrukt. De dataset is beschikbaar op https://gewu-lab.github.io/Ref-AVS{https://gewu-lab.github.io/Ref-AVS}.
English
Traditional reference segmentation tasks have predominantly focused on silent visual scenes, neglecting the integral role of multimodal perception and interaction in human experiences. In this work, we introduce a novel task called Reference Audio-Visual Segmentation (Ref-AVS), which seeks to segment objects within the visual domain based on expressions containing multimodal cues. Such expressions are articulated in natural language forms but are enriched with multimodal cues, including audio and visual descriptions. To facilitate this research, we construct the first Ref-AVS benchmark, which provides pixel-level annotations for objects described in corresponding multimodal-cue expressions. To tackle the Ref-AVS task, we propose a new method that adequately utilizes multimodal cues to offer precise segmentation guidance. Finally, we conduct quantitative and qualitative experiments on three test subsets to compare our approach with existing methods from related tasks. The results demonstrate the effectiveness of our method, highlighting its capability to precisely segment objects using multimodal-cue expressions. Dataset is available at https://gewu-lab.github.io/Ref-AVS{https://gewu-lab.github.io/Ref-AVS}.
PDF245February 7, 2026