Estilização de Paisagens Sonoras Audiovisuais Auto-supervisionadas
Self-Supervised Audio-Visual Soundscape Stylization
September 22, 2024
Autores: Tingle Li, Renhao Wang, Po-Yao Huang, Andrew Owens, Gopala Anumanchipalli
cs.AI
Resumo
Os sons da fala transmitem uma grande quantidade de informações sobre as cenas, resultando em uma variedade de efeitos que vão desde a reverberação até sons ambientes adicionais. Neste artigo, manipulamos a fala de entrada para que soe como se tivesse sido gravada em uma cena diferente, considerando um exemplo condicional áudio-visual gravado dessa cena. Nosso modelo aprende por auto-supervisão, aproveitando o fato de que vídeos naturais contêm eventos sonoros e texturas recorrentes. Extraímos um trecho de áudio de um vídeo e aplicamos aprimoramento de fala. Em seguida, treinamos um modelo de difusão latente para recuperar a fala original, utilizando outro trecho áudio-visual retirado de outro ponto do vídeo como uma pista condicional. Através desse processo, o modelo aprende a transferir as propriedades sonoras do exemplo condicional para a fala de entrada. Mostramos que nosso modelo pode ser treinado com sucesso usando vídeos não rotulados, capturados em ambientes naturais, e que um sinal visual adicional pode melhorar suas habilidades de previsão sonora. Consulte a página do nosso projeto para ver os resultados em vídeo: https://tinglok.netlify.app/files/avsoundscape/
English
Speech sounds convey a great deal of information about the scenes, resulting
in a variety of effects ranging from reverberation to additional ambient
sounds. In this paper, we manipulate input speech to sound as though it was
recorded within a different scene, given an audio-visual conditional example
recorded from that scene. Our model learns through self-supervision, taking
advantage of the fact that natural video contains recurring sound events and
textures. We extract an audio clip from a video and apply speech enhancement.
We then train a latent diffusion model to recover the original speech, using
another audio-visual clip taken from elsewhere in the video as a conditional
hint. Through this process, the model learns to transfer the conditional
example's sound properties to the input speech. We show that our model can be
successfully trained using unlabeled, in-the-wild videos, and that an
additional visual signal can improve its sound prediction abilities. Please see
our project webpage for video results:
https://tinglok.netlify.app/files/avsoundscape/Summary
AI-Generated Summary