Skizzieren einer Audio: Nutzung von Multi-Anweisungen für die Synthese von Video zu Audio

papers.abstract

Foley ist ein Begriff, der in der Filmproduktion häufig verwendet wird und sich auf die Hinzufügung von täglichen Soundeffekten zu stummen Filmen oder Videos bezieht, um das Hörerlebnis zu verbessern. Video-zu-Audio (V2A) als eine spezielle Art automatischer Foley-Aufgaben birgt inhärente Herausforderungen in Bezug auf die Audio-Visuelle Synchronisation. Diese Herausforderungen umfassen die Aufrechterhaltung der inhaltlichen Konsistenz zwischen dem Eingangsvideo und dem generierten Audio sowie die Ausrichtung der zeitlichen und Lautstärke-Eigenschaften innerhalb des Videos. Um diesen Problemen zu begegnen, haben wir ein steuerbares Video-zu-Audio-Synthesemodell namens "Draw an Audio" entwickelt, das mehrere Eingabeanweisungen durch gezeichnete Masken und Lautstärkesignale unterstützt. Um die inhaltliche Konsistenz zwischen dem synthetisierten Audio und dem Zielvideo sicherzustellen, haben wir das Masken-Aufmerksamkeitsmodul (MAM) eingeführt, das maskierte Videoanweisungen verwendet, um dem Modell zu ermöglichen, sich auf interessante Regionen zu konzentrieren. Darüber hinaus haben wir das Zeit-Lautstärke-Modul (TLM) implementiert, das ein zusätzliches Lautstärkesignal verwendet, um die Synthese von Ton sicherzustellen, der sich sowohl in Lautstärke als auch in zeitlicher Dimension mit dem Video abstimmt. Darüber hinaus haben wir einen umfangreichen V2A-Datensatz namens VGGSound-Caption durch die Annotierung von Untertitelprompts erweitert. Umfangreiche Experimente an anspruchsvollen Benchmarks auf zwei umfangreichen V2A-Datensätzen bestätigen, dass "Draw an Audio" den Stand der Technik erreicht hat. Projektseite: https://yannqi.github.io/Draw-an-Audio/.

English

Foley is a term commonly used in filmmaking, referring to the addition of daily sound effects to silent films or videos to enhance the auditory experience. Video-to-Audio (V2A), as a particular type of automatic foley task, presents inherent challenges related to audio-visual synchronization. These challenges encompass maintaining the content consistency between the input video and the generated audio, as well as the alignment of temporal and loudness properties within the video. To address these issues, we construct a controllable video-to-audio synthesis model, termed Draw an Audio, which supports multiple input instructions through drawn masks and loudness signals. To ensure content consistency between the synthesized audio and target video, we introduce the Mask-Attention Module (MAM), which employs masked video instruction to enable the model to focus on regions of interest. Additionally, we implement the Time-Loudness Module (TLM), which uses an auxiliary loudness signal to ensure the synthesis of sound that aligns with the video in both loudness and temporal dimensions. Furthermore, we have extended a large-scale V2A dataset, named VGGSound-Caption, by annotating caption prompts. Extensive experiments on challenging benchmarks across two large-scale V2A datasets verify Draw an Audio achieves the state-of-the-art. Project page: https://yannqi.github.io/Draw-an-Audio/.

Skizzieren einer Audio: Nutzung von Multi-Anweisungen für die Synthese von Video zu Audio

Draw an Audio: Leveraging Multi-Instruction for Video-to-Audio Synthesis

papers.abstract

Support