Dessiner un Audio : Exploiter les Multi-Instructions pour la Synthèse Vidéo-vers-Audio
Draw an Audio: Leveraging Multi-Instruction for Video-to-Audio Synthesis
September 10, 2024
Auteurs: Qi Yang, Binjie Mao, Zili Wang, Xing Nie, Pengfei Gao, Ying Guo, Cheng Zhen, Pengfei Yan, Shiming Xiang
cs.AI
Résumé
Foley est un terme couramment utilisé dans le cinéma, faisant référence à l'ajout d'effets sonores quotidiens à des films muets ou des vidéos pour améliorer l'expérience auditive. La tâche de Vidéo vers Audio (V2A), en tant que type particulier de tâche de foley automatique, présente des défis inhérents liés à la synchronisation audio-visuelle. Ces défis englobent le maintien de la cohérence du contenu entre la vidéo d'entrée et l'audio généré, ainsi que l'alignement des propriétés temporelles et de volume au sein de la vidéo. Pour résoudre ces problèmes, nous avons construit un modèle de synthèse vidéo-vers-audio contrôlable, appelé Draw an Audio, qui prend en charge plusieurs instructions d'entrée à travers des masques dessinés et des signaux de volume. Pour garantir la cohérence du contenu entre l'audio synthétisé et la vidéo cible, nous introduisons le Module d'Attention par Masque (MAM), qui utilise des instructions vidéo masquées pour permettre au modèle de se concentrer sur les régions d'intérêt. De plus, nous mettons en œuvre le Module Temps-Volume (TLM), qui utilise un signal de volume auxiliaire pour garantir la synthèse d'un son qui s'aligne avec la vidéo à la fois en termes de volume et de dimensions temporelles. En outre, nous avons étendu un ensemble de données V2A à grande échelle, nommé VGGSound-Caption, en annotant des indications de légende. Des expériences approfondies sur des benchmarks difficiles à travers deux ensembles de données V2A à grande échelle confirment que Draw an Audio atteint l'état de l'art. Page du projet : https://yannqi.github.io/Draw-an-Audio/.
English
Foley is a term commonly used in filmmaking, referring to the addition of
daily sound effects to silent films or videos to enhance the auditory
experience. Video-to-Audio (V2A), as a particular type of automatic foley task,
presents inherent challenges related to audio-visual synchronization. These
challenges encompass maintaining the content consistency between the input
video and the generated audio, as well as the alignment of temporal and
loudness properties within the video. To address these issues, we construct a
controllable video-to-audio synthesis model, termed Draw an Audio, which
supports multiple input instructions through drawn masks and loudness signals.
To ensure content consistency between the synthesized audio and target video,
we introduce the Mask-Attention Module (MAM), which employs masked video
instruction to enable the model to focus on regions of interest. Additionally,
we implement the Time-Loudness Module (TLM), which uses an auxiliary loudness
signal to ensure the synthesis of sound that aligns with the video in both
loudness and temporal dimensions. Furthermore, we have extended a large-scale
V2A dataset, named VGGSound-Caption, by annotating caption prompts. Extensive
experiments on challenging benchmarks across two large-scale V2A datasets
verify Draw an Audio achieves the state-of-the-art. Project page:
https://yannqi.github.io/Draw-an-Audio/.Summary
AI-Generated Summary