Dessiner un Audio : Exploiter les Multi-Instructions pour la Synthèse Vidéo-vers-Audio

papers.abstract

Foley est un terme couramment utilisé dans le cinéma, faisant référence à l'ajout d'effets sonores quotidiens à des films muets ou des vidéos pour améliorer l'expérience auditive. La tâche de Vidéo vers Audio (V2A), en tant que type particulier de tâche de foley automatique, présente des défis inhérents liés à la synchronisation audio-visuelle. Ces défis englobent le maintien de la cohérence du contenu entre la vidéo d'entrée et l'audio généré, ainsi que l'alignement des propriétés temporelles et de volume au sein de la vidéo. Pour résoudre ces problèmes, nous avons construit un modèle de synthèse vidéo-vers-audio contrôlable, appelé Draw an Audio, qui prend en charge plusieurs instructions d'entrée à travers des masques dessinés et des signaux de volume. Pour garantir la cohérence du contenu entre l'audio synthétisé et la vidéo cible, nous introduisons le Module d'Attention par Masque (MAM), qui utilise des instructions vidéo masquées pour permettre au modèle de se concentrer sur les régions d'intérêt. De plus, nous mettons en œuvre le Module Temps-Volume (TLM), qui utilise un signal de volume auxiliaire pour garantir la synthèse d'un son qui s'aligne avec la vidéo à la fois en termes de volume et de dimensions temporelles. En outre, nous avons étendu un ensemble de données V2A à grande échelle, nommé VGGSound-Caption, en annotant des indications de légende. Des expériences approfondies sur des benchmarks difficiles à travers deux ensembles de données V2A à grande échelle confirment que Draw an Audio atteint l'état de l'art. Page du projet : https://yannqi.github.io/Draw-an-Audio/.

English

Foley is a term commonly used in filmmaking, referring to the addition of daily sound effects to silent films or videos to enhance the auditory experience. Video-to-Audio (V2A), as a particular type of automatic foley task, presents inherent challenges related to audio-visual synchronization. These challenges encompass maintaining the content consistency between the input video and the generated audio, as well as the alignment of temporal and loudness properties within the video. To address these issues, we construct a controllable video-to-audio synthesis model, termed Draw an Audio, which supports multiple input instructions through drawn masks and loudness signals. To ensure content consistency between the synthesized audio and target video, we introduce the Mask-Attention Module (MAM), which employs masked video instruction to enable the model to focus on regions of interest. Additionally, we implement the Time-Loudness Module (TLM), which uses an auxiliary loudness signal to ensure the synthesis of sound that aligns with the video in both loudness and temporal dimensions. Furthermore, we have extended a large-scale V2A dataset, named VGGSound-Caption, by annotating caption prompts. Extensive experiments on challenging benchmarks across two large-scale V2A datasets verify Draw an Audio achieves the state-of-the-art. Project page: https://yannqi.github.io/Draw-an-Audio/.

Dessiner un Audio : Exploiter les Multi-Instructions pour la Synthèse Vidéo-vers-Audio

Draw an Audio: Leveraging Multi-Instruction for Video-to-Audio Synthesis

papers.abstract

Support