Stylisation de paysages sonores audiovisuels auto-supervisée
Self-Supervised Audio-Visual Soundscape Stylization
September 22, 2024
Auteurs: Tingle Li, Renhao Wang, Po-Yao Huang, Andrew Owens, Gopala Anumanchipalli
cs.AI
Résumé
Les sons de la parole transmettent une grande quantité d'informations sur les scènes, entraînant une variété d'effets allant de la réverbération aux sons ambiants supplémentaires. Dans cet article, nous manipulons la parole d'entrée pour qu'elle semble avoir été enregistrée dans une scène différente, en utilisant un exemple conditionnel audio-visuel enregistré à partir de cette scène. Notre modèle apprend par auto-supervision, tirant parti du fait que la vidéo naturelle contient des événements sonores et des textures récurrents. Nous extrayons un extrait audio d'une vidéo et appliquons une amélioration de la parole. Ensuite, nous entraînons un modèle de diffusion latent pour récupérer la parole originale, en utilisant un autre extrait audio-visuel pris ailleurs dans la vidéo comme indice conditionnel. À travers ce processus, le modèle apprend à transférer les propriétés sonores de l'exemple conditionnel à la parole d'entrée. Nous montrons que notre modèle peut être entraîné avec succès en utilisant des vidéos non étiquetées dans des environnements naturels, et qu'un signal visuel supplémentaire peut améliorer ses capacités de prédiction sonore. Veuillez consulter notre page web du projet pour les résultats vidéo : https://tinglok.netlify.app/files/avsoundscape/
English
Speech sounds convey a great deal of information about the scenes, resulting
in a variety of effects ranging from reverberation to additional ambient
sounds. In this paper, we manipulate input speech to sound as though it was
recorded within a different scene, given an audio-visual conditional example
recorded from that scene. Our model learns through self-supervision, taking
advantage of the fact that natural video contains recurring sound events and
textures. We extract an audio clip from a video and apply speech enhancement.
We then train a latent diffusion model to recover the original speech, using
another audio-visual clip taken from elsewhere in the video as a conditional
hint. Through this process, the model learns to transfer the conditional
example's sound properties to the input speech. We show that our model can be
successfully trained using unlabeled, in-the-wild videos, and that an
additional visual signal can improve its sound prediction abilities. Please see
our project webpage for video results:
https://tinglok.netlify.app/files/avsoundscape/Summary
AI-Generated Summary