Separare il "Cinguettio" dalla "Conversazione": Grounding Visivo Autosupervisionato di Suono e Linguaggio
Separating the "Chirp" from the "Chat": Self-supervised Visual Grounding of Sound and Language
June 9, 2024
Autori: Mark Hamilton, Andrew Zisserman, John R. Hershey, William T. Freeman
cs.AI
Abstract
Presentiamo DenseAV, una nuova architettura di grounding a doppio encoder che apprende feature ad alta risoluzione, semanticamente significative e allineate audio-visivamente esclusivamente attraverso la visione di video. Dimostriamo che DenseAV è in grado di scoprire il "significato" delle parole e la "posizione" dei suoni senza una supervisione esplicita di localizzazione. Inoltre, distingue automaticamente tra questi due tipi di associazioni senza supervisione. Mostriamo che le capacità di localizzazione di DenseAV derivano da un nuovo operatore di aggregazione multi-head che confronta direttamente rappresentazioni dense di immagini e audio per l'apprendimento contrastivo. Al contrario, molti altri sistemi che apprendono rappresentazioni "globali" di audio e video non sono in grado di localizzare parole e suoni. Infine, contribuiamo con due nuovi dataset per migliorare la valutazione delle rappresentazioni audio-visive attraverso la segmentazione semantica guidata da parole e suoni. Su questi e altri dataset, dimostriamo che DenseAV supera significativamente lo stato dell'arte nella segmentazione semantica guidata da parole e suoni. DenseAV supera il precedente stato dell'arte, ImageBind, nel recupero cross-modale utilizzando meno della metà dei parametri. Pagina del progetto: https://aka.ms/denseav{https://aka.ms/denseav}
English
We present DenseAV, a novel dual encoder grounding architecture that learns
high-resolution, semantically meaningful, and audio-visually aligned features
solely through watching videos. We show that DenseAV can discover the
``meaning'' of words and the ``location'' of sounds without explicit
localization supervision. Furthermore, it automatically discovers and
distinguishes between these two types of associations without supervision. We
show that DenseAV's localization abilities arise from a new multi-head feature
aggregation operator that directly compares dense image and audio
representations for contrastive learning. In contrast, many other systems that
learn ``global'' audio and video representations cannot localize words and
sound. Finally, we contribute two new datasets to improve the evaluation of AV
representations through speech and sound prompted semantic segmentation. On
these and other datasets we show DenseAV dramatically outperforms the prior art
on speech and sound prompted semantic segmentation. DenseAV outperforms the
previous state-of-the-art, ImageBind, on cross-modal retrieval using fewer than
half of the parameters. Project Page:
https://aka.ms/denseav{https://aka.ms/denseav}