ChatPaper.aiChatPaper

오디오 그리기: 비디오에서 오디오 합성을 위한 다중 명령 활용

Draw an Audio: Leveraging Multi-Instruction for Video-to-Audio Synthesis

September 10, 2024
저자: Qi Yang, Binjie Mao, Zili Wang, Xing Nie, Pengfei Gao, Ying Guo, Cheng Zhen, Pengfei Yan, Shiming Xiang
cs.AI

초록

폴리(Foley)는 영화 제작에서 흔히 사용되는 용어로, 무음 영화나 비디오에 일상적인 소리 효과를 추가하여 청각 경험을 향상시키는 것을 가리킵니다. 비디오-음성(V2A)은 특정 유형의 자동 폴리 작업으로, 오디오-시각 동기화와 관련된 고유한 도전 과제를 제시합니다. 이러한 도전 과제에는 입력 비디오와 생성된 오디오 간의 콘텐츠 일관성 유지뿐만 아니라 비디오 내의 시간 및 음량 속성의 정렬이 포함됩니다. 이러한 문제를 해결하기 위해 우리는 Draw an Audio라는 제어 가능한 비디오-음성 합성 모델을 구축했는데, 이는 그려진 마스크와 음량 신호를 통해 여러 입력 지시를 지원합니다. 합성된 오디오와 대상 비디오 간의 콘텐츠 일관성을 보장하기 위해 Mask-Attention Module(MAM)을 도입했는데, 이는 마스크된 비디오 지시를 활용하여 모델이 관심 영역에 집중할 수 있도록 합니다. 더불어 Time-Loudness Module(TLM)을 구현했는데, 이는 보조 음량 신호를 사용하여 비디오의 음량과 시간적 차원에서 일치하는 소리를 합성합니다. 더 나아가, 우리는 캡션 프롬프트를 주석 달아 대규모 V2A 데이터셋인 VGGSound-Caption을 확장했습니다. 두 대규모 V2A 데이터셋을 횡단하는 어려운 벤치마크 실험을 통해 Draw an Audio가 최신 기술을 달성했음을 확인했습니다. 프로젝트 페이지: https://yannqi.github.io/Draw-an-Audio/.
English
Foley is a term commonly used in filmmaking, referring to the addition of daily sound effects to silent films or videos to enhance the auditory experience. Video-to-Audio (V2A), as a particular type of automatic foley task, presents inherent challenges related to audio-visual synchronization. These challenges encompass maintaining the content consistency between the input video and the generated audio, as well as the alignment of temporal and loudness properties within the video. To address these issues, we construct a controllable video-to-audio synthesis model, termed Draw an Audio, which supports multiple input instructions through drawn masks and loudness signals. To ensure content consistency between the synthesized audio and target video, we introduce the Mask-Attention Module (MAM), which employs masked video instruction to enable the model to focus on regions of interest. Additionally, we implement the Time-Loudness Module (TLM), which uses an auxiliary loudness signal to ensure the synthesis of sound that aligns with the video in both loudness and temporal dimensions. Furthermore, we have extended a large-scale V2A dataset, named VGGSound-Caption, by annotating caption prompts. Extensive experiments on challenging benchmarks across two large-scale V2A datasets verify Draw an Audio achieves the state-of-the-art. Project page: https://yannqi.github.io/Draw-an-Audio/.

Summary

AI-Generated Summary

PDF162November 16, 2024