ChatPaper.aiChatPaper

Estilização de Paisagens Sonoras Audiovisuais Auto-supervisionadas

Self-Supervised Audio-Visual Soundscape Stylization

September 22, 2024
Autores: Tingle Li, Renhao Wang, Po-Yao Huang, Andrew Owens, Gopala Anumanchipalli
cs.AI

Resumo

Os sons da fala transmitem uma grande quantidade de informações sobre as cenas, resultando em uma variedade de efeitos que vão desde a reverberação até sons ambientes adicionais. Neste artigo, manipulamos a fala de entrada para que soe como se tivesse sido gravada em uma cena diferente, considerando um exemplo condicional áudio-visual gravado dessa cena. Nosso modelo aprende por auto-supervisão, aproveitando o fato de que vídeos naturais contêm eventos sonoros e texturas recorrentes. Extraímos um trecho de áudio de um vídeo e aplicamos aprimoramento de fala. Em seguida, treinamos um modelo de difusão latente para recuperar a fala original, utilizando outro trecho áudio-visual retirado de outro ponto do vídeo como uma pista condicional. Através desse processo, o modelo aprende a transferir as propriedades sonoras do exemplo condicional para a fala de entrada. Mostramos que nosso modelo pode ser treinado com sucesso usando vídeos não rotulados, capturados em ambientes naturais, e que um sinal visual adicional pode melhorar suas habilidades de previsão sonora. Consulte a página do nosso projeto para ver os resultados em vídeo: https://tinglok.netlify.app/files/avsoundscape/
English
Speech sounds convey a great deal of information about the scenes, resulting in a variety of effects ranging from reverberation to additional ambient sounds. In this paper, we manipulate input speech to sound as though it was recorded within a different scene, given an audio-visual conditional example recorded from that scene. Our model learns through self-supervision, taking advantage of the fact that natural video contains recurring sound events and textures. We extract an audio clip from a video and apply speech enhancement. We then train a latent diffusion model to recover the original speech, using another audio-visual clip taken from elsewhere in the video as a conditional hint. Through this process, the model learns to transfer the conditional example's sound properties to the input speech. We show that our model can be successfully trained using unlabeled, in-the-wild videos, and that an additional visual signal can improve its sound prediction abilities. Please see our project webpage for video results: https://tinglok.netlify.app/files/avsoundscape/

Summary

AI-Generated Summary

PDF22November 16, 2024