Dibujar un Audio: Aprovechando Multi-Instrucción para la Síntesis de Video a Audio
Draw an Audio: Leveraging Multi-Instruction for Video-to-Audio Synthesis
September 10, 2024
Autores: Qi Yang, Binjie Mao, Zili Wang, Xing Nie, Pengfei Gao, Ying Guo, Cheng Zhen, Pengfei Yan, Shiming Xiang
cs.AI
Resumen
Foley es un término comúnmente utilizado en la producción cinematográfica, que se refiere a la adición de efectos de sonido diarios a películas mudas o videos para mejorar la experiencia auditiva. Video-to-Audio (V2A), como un tipo particular de tarea automática de foley, presenta desafíos inherentes relacionados con la sincronización audiovisual. Estos desafíos abarcan mantener la consistencia del contenido entre el video de entrada y el audio generado, así como la alineación de las propiedades temporales y de volumen dentro del video. Para abordar estos problemas, construimos un modelo de síntesis de video a audio controlable, denominado Draw an Audio, que admite múltiples instrucciones de entrada a través de máscaras dibujadas y señales de volumen. Para garantizar la consistencia del contenido entre el audio sintetizado y el video objetivo, introducimos el Módulo de Atención de Máscara (MAM), que emplea instrucciones de video enmascaradas para permitir que el modelo se enfoque en regiones de interés. Además, implementamos el Módulo de Tiempo-Volumen (TLM), que utiliza una señal de volumen auxiliar para garantizar la síntesis de sonido que se alinea con el video en dimensiones tanto de volumen como temporales. Además, hemos ampliado un conjunto de datos V2A a gran escala, denominado VGGSound-Caption, mediante la anotación de indicaciones de subtítulos. Experimentos extensos en desafiantes referencias a través de dos conjuntos de datos V2A a gran escala verifican que Draw an Audio logra el estado del arte. Página del proyecto: https://yannqi.github.io/Draw-an-Audio/.
English
Foley is a term commonly used in filmmaking, referring to the addition of
daily sound effects to silent films or videos to enhance the auditory
experience. Video-to-Audio (V2A), as a particular type of automatic foley task,
presents inherent challenges related to audio-visual synchronization. These
challenges encompass maintaining the content consistency between the input
video and the generated audio, as well as the alignment of temporal and
loudness properties within the video. To address these issues, we construct a
controllable video-to-audio synthesis model, termed Draw an Audio, which
supports multiple input instructions through drawn masks and loudness signals.
To ensure content consistency between the synthesized audio and target video,
we introduce the Mask-Attention Module (MAM), which employs masked video
instruction to enable the model to focus on regions of interest. Additionally,
we implement the Time-Loudness Module (TLM), which uses an auxiliary loudness
signal to ensure the synthesis of sound that aligns with the video in both
loudness and temporal dimensions. Furthermore, we have extended a large-scale
V2A dataset, named VGGSound-Caption, by annotating caption prompts. Extensive
experiments on challenging benchmarks across two large-scale V2A datasets
verify Draw an Audio achieves the state-of-the-art. Project page:
https://yannqi.github.io/Draw-an-Audio/.Summary
AI-Generated Summary