Skizzieren einer Audio: Nutzung von Multi-Anweisungen für die Synthese von Video zu Audio
Draw an Audio: Leveraging Multi-Instruction for Video-to-Audio Synthesis
September 10, 2024
Autoren: Qi Yang, Binjie Mao, Zili Wang, Xing Nie, Pengfei Gao, Ying Guo, Cheng Zhen, Pengfei Yan, Shiming Xiang
cs.AI
Zusammenfassung
Foley ist ein Begriff, der in der Filmproduktion häufig verwendet wird und sich auf die Hinzufügung von täglichen Soundeffekten zu stummen Filmen oder Videos bezieht, um das Hörerlebnis zu verbessern. Video-zu-Audio (V2A) als eine spezielle Art automatischer Foley-Aufgaben birgt inhärente Herausforderungen in Bezug auf die Audio-Visuelle Synchronisation. Diese Herausforderungen umfassen die Aufrechterhaltung der inhaltlichen Konsistenz zwischen dem Eingangsvideo und dem generierten Audio sowie die Ausrichtung der zeitlichen und Lautstärke-Eigenschaften innerhalb des Videos. Um diesen Problemen zu begegnen, haben wir ein steuerbares Video-zu-Audio-Synthesemodell namens "Draw an Audio" entwickelt, das mehrere Eingabeanweisungen durch gezeichnete Masken und Lautstärkesignale unterstützt. Um die inhaltliche Konsistenz zwischen dem synthetisierten Audio und dem Zielvideo sicherzustellen, haben wir das Masken-Aufmerksamkeitsmodul (MAM) eingeführt, das maskierte Videoanweisungen verwendet, um dem Modell zu ermöglichen, sich auf interessante Regionen zu konzentrieren. Darüber hinaus haben wir das Zeit-Lautstärke-Modul (TLM) implementiert, das ein zusätzliches Lautstärkesignal verwendet, um die Synthese von Ton sicherzustellen, der sich sowohl in Lautstärke als auch in zeitlicher Dimension mit dem Video abstimmt. Darüber hinaus haben wir einen umfangreichen V2A-Datensatz namens VGGSound-Caption durch die Annotierung von Untertitelprompts erweitert. Umfangreiche Experimente an anspruchsvollen Benchmarks auf zwei umfangreichen V2A-Datensätzen bestätigen, dass "Draw an Audio" den Stand der Technik erreicht hat. Projektseite: https://yannqi.github.io/Draw-an-Audio/.
English
Foley is a term commonly used in filmmaking, referring to the addition of
daily sound effects to silent films or videos to enhance the auditory
experience. Video-to-Audio (V2A), as a particular type of automatic foley task,
presents inherent challenges related to audio-visual synchronization. These
challenges encompass maintaining the content consistency between the input
video and the generated audio, as well as the alignment of temporal and
loudness properties within the video. To address these issues, we construct a
controllable video-to-audio synthesis model, termed Draw an Audio, which
supports multiple input instructions through drawn masks and loudness signals.
To ensure content consistency between the synthesized audio and target video,
we introduce the Mask-Attention Module (MAM), which employs masked video
instruction to enable the model to focus on regions of interest. Additionally,
we implement the Time-Loudness Module (TLM), which uses an auxiliary loudness
signal to ensure the synthesis of sound that aligns with the video in both
loudness and temporal dimensions. Furthermore, we have extended a large-scale
V2A dataset, named VGGSound-Caption, by annotating caption prompts. Extensive
experiments on challenging benchmarks across two large-scale V2A datasets
verify Draw an Audio achieves the state-of-the-art. Project page:
https://yannqi.github.io/Draw-an-Audio/.Summary
AI-Generated Summary