Selbstüberwachte Audio-Visuelle Klanglandschaftsstilisierung
Self-Supervised Audio-Visual Soundscape Stylization
September 22, 2024
Autoren: Tingle Li, Renhao Wang, Po-Yao Huang, Andrew Owens, Gopala Anumanchipalli
cs.AI
Zusammenfassung
Sprachlaute vermitteln eine Vielzahl von Informationen über Szenen, was zu einer Vielzahl von Effekten führt, die von Hall bis hin zu zusätzlichen Umgebungsgeräuschen reichen. In diesem Papier manipulieren wir den Eingangssprachton so, dass er klingt, als wäre er in einer anderen Szene aufgenommen worden, basierend auf einem audiovisuellen bedingten Beispiel, das aus dieser Szene aufgenommen wurde. Unser Modell lernt durch Selbstüberwachung und nutzt dabei die Tatsache aus, dass natürliche Videos wiederkehrende Klangereignisse und Texturen enthalten. Wir extrahieren einen Audioclip aus einem Video und wenden eine Sprachverbesserung an. Anschließend trainieren wir ein latentes Diffusionsmodell, um die Originalsprache wiederherzustellen, wobei ein anderes audiovisuelles Clip aus einem anderen Teil des Videos als bedingter Hinweis dient. Durch diesen Prozess lernt das Modell, die Klangeigenschaften des bedingten Beispiels auf den Eingangssprachton zu übertragen. Wir zeigen, dass unser Modell erfolgreich mit unbeschrifteten Videos aus der Natur trainiert werden kann und dass ein zusätzliches visuelles Signal seine Klangvorhersagefähigkeiten verbessern kann. Bitte besuchen Sie unsere Projektwebseite für Videobeweise: https://tinglok.netlify.app/files/avsoundscape/
English
Speech sounds convey a great deal of information about the scenes, resulting
in a variety of effects ranging from reverberation to additional ambient
sounds. In this paper, we manipulate input speech to sound as though it was
recorded within a different scene, given an audio-visual conditional example
recorded from that scene. Our model learns through self-supervision, taking
advantage of the fact that natural video contains recurring sound events and
textures. We extract an audio clip from a video and apply speech enhancement.
We then train a latent diffusion model to recover the original speech, using
another audio-visual clip taken from elsewhere in the video as a conditional
hint. Through this process, the model learns to transfer the conditional
example's sound properties to the input speech. We show that our model can be
successfully trained using unlabeled, in-the-wild videos, and that an
additional visual signal can improve its sound prediction abilities. Please see
our project webpage for video results:
https://tinglok.netlify.app/files/avsoundscape/Summary
AI-Generated Summary