Desenhar um Áudio: Aproveitando Múltiplas Instruções para a Síntese de Vídeo para Áudio
Draw an Audio: Leveraging Multi-Instruction for Video-to-Audio Synthesis
September 10, 2024
Autores: Qi Yang, Binjie Mao, Zili Wang, Xing Nie, Pengfei Gao, Ying Guo, Cheng Zhen, Pengfei Yan, Shiming Xiang
cs.AI
Resumo
Foley é um termo comumente utilizado na produção cinematográfica, referindo-se à adição de efeitos sonoros diários a filmes silenciosos ou vídeos para aprimorar a experiência auditiva. O Video-to-Audio (V2A), como um tipo específico de tarefa automática de foley, apresenta desafios inerentes relacionados à sincronização áudio-visual. Esses desafios abrangem a manutenção da consistência de conteúdo entre o vídeo de entrada e o áudio gerado, bem como o alinhamento das propriedades temporais e de volume dentro do vídeo. Para lidar com essas questões, construímos um modelo de síntese de vídeo para áudio controlável, denominado Draw an Audio, que suporta múltiplas instruções de entrada por meio de máscaras desenhadas e sinais de volume. Para garantir a consistência de conteúdo entre o áudio sintetizado e o vídeo alvo, introduzimos o Módulo de Atenção de Máscara (MAM), que utiliza instruções de vídeo mascaradas para permitir que o modelo se concentre em regiões de interesse. Adicionalmente, implementamos o Módulo de Tempo-Volume (TLM), que utiliza um sinal de volume auxiliar para garantir a síntese de som que se alinha com o vídeo em ambas as dimensões de volume e temporal. Além disso, estendemos um conjunto de dados V2A em grande escala, denominado VGGSound-Caption, por meio da anotação de prompts de legenda. Experimentos extensivos em benchmarks desafiadores em dois conjuntos de dados V2A em grande escala confirmam que o Draw an Audio alcança o estado da arte. Página do projeto: https://yannqi.github.io/Draw-an-Audio/.
English
Foley is a term commonly used in filmmaking, referring to the addition of
daily sound effects to silent films or videos to enhance the auditory
experience. Video-to-Audio (V2A), as a particular type of automatic foley task,
presents inherent challenges related to audio-visual synchronization. These
challenges encompass maintaining the content consistency between the input
video and the generated audio, as well as the alignment of temporal and
loudness properties within the video. To address these issues, we construct a
controllable video-to-audio synthesis model, termed Draw an Audio, which
supports multiple input instructions through drawn masks and loudness signals.
To ensure content consistency between the synthesized audio and target video,
we introduce the Mask-Attention Module (MAM), which employs masked video
instruction to enable the model to focus on regions of interest. Additionally,
we implement the Time-Loudness Module (TLM), which uses an auxiliary loudness
signal to ensure the synthesis of sound that aligns with the video in both
loudness and temporal dimensions. Furthermore, we have extended a large-scale
V2A dataset, named VGGSound-Caption, by annotating caption prompts. Extensive
experiments on challenging benchmarks across two large-scale V2A datasets
verify Draw an Audio achieves the state-of-the-art. Project page:
https://yannqi.github.io/Draw-an-Audio/.Summary
AI-Generated Summary