Teken een Audio: Profiteren van Multi-Instructie voor Video-naar-Audio Synthese
Draw an Audio: Leveraging Multi-Instruction for Video-to-Audio Synthesis
September 10, 2024
Auteurs: Qi Yang, Binjie Mao, Zili Wang, Xing Nie, Pengfei Gao, Ying Guo, Cheng Zhen, Pengfei Yan, Shiming Xiang
cs.AI
Samenvatting
Foley is een term die vaak wordt gebruikt in de filmmaking, wat verwijst naar het toevoegen van dagelijkse geluidseffecten aan stille films of video's om de auditieve ervaring te verbeteren. Video-naar-audio (V2A), als een specifiek type automatische foley-taak, brengt inherente uitdagingen met zich mee met betrekking tot audiovisuele synchronisatie. Deze uitdagingen omvatten het behouden van de inhoudsconsistentie tussen de invoervideo en de gegenereerde audio, evenals de afstemming van temporele en luidheidskenmerken binnen de video. Om deze problemen aan te pakken, construeren we een controleerbaar video-naar-audio synthese model, genaamd Draw an Audio, dat meerdere invoerinstructies ondersteunt via getekende maskers en luidheidssignalen. Om de inhoudsconsistentie tussen de gesynthetiseerde audio en de doelvideo te waarborgen, introduceren we de Mask-Attention Module (MAM), die gemaskerde video-instructies gebruikt om het model zich te laten concentreren op interessante regio's. Daarnaast implementeren we de Time-Loudness Module (TLM), die een hulp-luidheidssignaal gebruikt om ervoor te zorgen dat het geluid dat wordt gesynthetiseerd in overeenstemming is met de video op zowel luidheid als temporele dimensies. Bovendien hebben we een grootschalige V2A dataset uitgebreid, genaamd VGGSound-Caption, door bijschriftprompts te annoteren. Uitgebreide experimenten op uitdagende benchmarks over twee grootschalige V2A datasets bevestigen dat Draw an Audio de state-of-the-art bereikt. Projectpagina: https://yannqi.github.io/Draw-an-Audio/.
English
Foley is a term commonly used in filmmaking, referring to the addition of
daily sound effects to silent films or videos to enhance the auditory
experience. Video-to-Audio (V2A), as a particular type of automatic foley task,
presents inherent challenges related to audio-visual synchronization. These
challenges encompass maintaining the content consistency between the input
video and the generated audio, as well as the alignment of temporal and
loudness properties within the video. To address these issues, we construct a
controllable video-to-audio synthesis model, termed Draw an Audio, which
supports multiple input instructions through drawn masks and loudness signals.
To ensure content consistency between the synthesized audio and target video,
we introduce the Mask-Attention Module (MAM), which employs masked video
instruction to enable the model to focus on regions of interest. Additionally,
we implement the Time-Loudness Module (TLM), which uses an auxiliary loudness
signal to ensure the synthesis of sound that aligns with the video in both
loudness and temporal dimensions. Furthermore, we have extended a large-scale
V2A dataset, named VGGSound-Caption, by annotating caption prompts. Extensive
experiments on challenging benchmarks across two large-scale V2A datasets
verify Draw an Audio achieves the state-of-the-art. Project page:
https://yannqi.github.io/Draw-an-Audio/.Summary
AI-Generated Summary