Estilización de Paisajes Sonoros Audiovisuales Auto-supervisados
Self-Supervised Audio-Visual Soundscape Stylization
September 22, 2024
Autores: Tingle Li, Renhao Wang, Po-Yao Huang, Andrew Owens, Gopala Anumanchipalli
cs.AI
Resumen
Los sonidos del habla transmiten una gran cantidad de información sobre las escenas, lo que resulta en una variedad de efectos que van desde la reverberación hasta sonidos ambientales adicionales. En este documento, manipulamos el habla de entrada para que suene como si hubiera sido grabada en una escena diferente, dado un ejemplo condicional audiovisual grabado desde esa escena. Nuestro modelo aprende a través de auto-supervisión, aprovechando el hecho de que el video natural contiene eventos de sonido y texturas recurrentes. Extraemos un fragmento de audio de un video y aplicamos mejora del habla. Luego entrenamos un modelo de difusión latente para recuperar el habla original, utilizando otro fragmento audiovisual tomado de otro lugar en el video como pista condicional. A través de este proceso, el modelo aprende a transferir las propiedades sonoras del ejemplo condicional al habla de entrada. Mostramos que nuestro modelo puede ser entrenado con éxito utilizando videos no etiquetados en entornos naturales, y que una señal visual adicional puede mejorar sus habilidades de predicción de sonido. Por favor, consulte la página web de nuestro proyecto para ver los resultados en video: https://tinglok.netlify.app/files/avsoundscape/
English
Speech sounds convey a great deal of information about the scenes, resulting
in a variety of effects ranging from reverberation to additional ambient
sounds. In this paper, we manipulate input speech to sound as though it was
recorded within a different scene, given an audio-visual conditional example
recorded from that scene. Our model learns through self-supervision, taking
advantage of the fact that natural video contains recurring sound events and
textures. We extract an audio clip from a video and apply speech enhancement.
We then train a latent diffusion model to recover the original speech, using
another audio-visual clip taken from elsewhere in the video as a conditional
hint. Through this process, the model learns to transfer the conditional
example's sound properties to the input speech. We show that our model can be
successfully trained using unlabeled, in-the-wild videos, and that an
additional visual signal can improve its sound prediction abilities. Please see
our project webpage for video results:
https://tinglok.netlify.app/files/avsoundscape/Summary
AI-Generated Summary