ChatPaper.aiChatPaper

Stylisation de paysages sonores audiovisuels auto-supervisée

Self-Supervised Audio-Visual Soundscape Stylization

September 22, 2024
Auteurs: Tingle Li, Renhao Wang, Po-Yao Huang, Andrew Owens, Gopala Anumanchipalli
cs.AI

Résumé

Les sons de la parole transmettent une grande quantité d'informations sur les scènes, entraînant une variété d'effets allant de la réverbération aux sons ambiants supplémentaires. Dans cet article, nous manipulons la parole d'entrée pour qu'elle semble avoir été enregistrée dans une scène différente, en utilisant un exemple conditionnel audio-visuel enregistré à partir de cette scène. Notre modèle apprend par auto-supervision, tirant parti du fait que la vidéo naturelle contient des événements sonores et des textures récurrents. Nous extrayons un extrait audio d'une vidéo et appliquons une amélioration de la parole. Ensuite, nous entraînons un modèle de diffusion latent pour récupérer la parole originale, en utilisant un autre extrait audio-visuel pris ailleurs dans la vidéo comme indice conditionnel. À travers ce processus, le modèle apprend à transférer les propriétés sonores de l'exemple conditionnel à la parole d'entrée. Nous montrons que notre modèle peut être entraîné avec succès en utilisant des vidéos non étiquetées dans des environnements naturels, et qu'un signal visuel supplémentaire peut améliorer ses capacités de prédiction sonore. Veuillez consulter notre page web du projet pour les résultats vidéo : https://tinglok.netlify.app/files/avsoundscape/
English
Speech sounds convey a great deal of information about the scenes, resulting in a variety of effects ranging from reverberation to additional ambient sounds. In this paper, we manipulate input speech to sound as though it was recorded within a different scene, given an audio-visual conditional example recorded from that scene. Our model learns through self-supervision, taking advantage of the fact that natural video contains recurring sound events and textures. We extract an audio clip from a video and apply speech enhancement. We then train a latent diffusion model to recover the original speech, using another audio-visual clip taken from elsewhere in the video as a conditional hint. Through this process, the model learns to transfer the conditional example's sound properties to the input speech. We show that our model can be successfully trained using unlabeled, in-the-wild videos, and that an additional visual signal can improve its sound prediction abilities. Please see our project webpage for video results: https://tinglok.netlify.app/files/avsoundscape/

Summary

AI-Generated Summary

PDF22November 16, 2024