Stilizzazione dell'ambiente sonoro audio-visivo auto-supervisionato
Self-Supervised Audio-Visual Soundscape Stylization
September 22, 2024
Autori: Tingle Li, Renhao Wang, Po-Yao Huang, Andrew Owens, Gopala Anumanchipalli
cs.AI
Abstract
I suoni del linguaggio trasmettono una grande quantità di informazioni sugli scenari, generando una varietà di effetti che vanno dalla riverberazione ai suoni ambientali aggiuntivi. In questo articolo, manipoliamo il linguaggio di input in modo che sembri registrato all'interno di uno scenario diverso, dato un esempio condizionale audio-visivo registrato da tale scenario. Il nostro modello apprende tramite auto-supervisione, sfruttando il fatto che i video naturali contengono eventi sonori e texture ricorrenti. Estraiamo un frammento audio da un video e applichiamo un miglioramento del linguaggio. Successivamente addestriamo un modello di diffusione latente per recuperare il linguaggio originale, utilizzando un altro frammento audio-visivo preso da un'altra parte del video come suggerimento condizionale. Attraverso questo processo, il modello impara a trasferire le proprietà sonore dell'esempio condizionale al linguaggio di input. Dimostriamo che il nostro modello può essere addestrato con successo utilizzando video non etichettati e non elaborati, e che un segnale visivo aggiuntivo può migliorare le sue capacità di previsione del suono. Si prega di visitare la pagina web del nostro progetto per i risultati video: https://tinglok.netlify.app/files/avsoundscape/
English
Speech sounds convey a great deal of information about the scenes, resulting
in a variety of effects ranging from reverberation to additional ambient
sounds. In this paper, we manipulate input speech to sound as though it was
recorded within a different scene, given an audio-visual conditional example
recorded from that scene. Our model learns through self-supervision, taking
advantage of the fact that natural video contains recurring sound events and
textures. We extract an audio clip from a video and apply speech enhancement.
We then train a latent diffusion model to recover the original speech, using
another audio-visual clip taken from elsewhere in the video as a conditional
hint. Through this process, the model learns to transfer the conditional
example's sound properties to the input speech. We show that our model can be
successfully trained using unlabeled, in-the-wild videos, and that an
additional visual signal can improve its sound prediction abilities. Please see
our project webpage for video results:
https://tinglok.netlify.app/files/avsoundscape/Summary
AI-Generated Summary