FoleyCrafter: 생생하고 동기화된 사운드로 무음 비디오에 생명을 불어넣다
FoleyCrafter: Bring Silent Videos to Life with Lifelike and Synchronized Sounds
July 1, 2024
저자: Yiming Zhang, Yicheng Gu, Yanhong Zeng, Zhening Xing, Yuancheng Wang, Zhizheng Wu, Kai Chen
cs.AI
초록
우리는 비디오와 동기화된 고품질 사운드 효과를 자동으로 생성하여 몰입형 오디오-비주얼 경험을 가능하게 하는 Neural Foley를 연구합니다. 다양한 응용 분야가 있음에도 불구하고, 기존 접근 방식들은 고품질과 비디오 정렬(즉, 의미적으로 관련 있고 시간적으로 동기화된) 사운드를 동시에 합성하는 데 한계가 있었습니다. 이러한 한계를 극복하기 위해, 우리는 고품질 오디오 생성을 보장하기 위해 사전 훈련된 텍스트-투-오디오 모델을 활용하는 새로운 프레임워크인 FoleyCrafter를 제안합니다. FoleyCrafter는 의미적 정렬을 위한 semantic adapter와 정확한 오디오-비디오 동기화를 위한 temporal controller라는 두 가지 핵심 구성 요소로 이루어져 있습니다. Semantic adapter는 병렬 크로스-어텐션 레이어를 사용하여 비디오 특징에 기반한 오디오 생성을 조건화함으로써 시각적 콘텐츠와 의미적으로 관련된 현실적인 사운드 효과를 생성합니다. 한편, temporal controller는 온셋 감지기와 타임스탬프 기반 어댑터를 통합하여 정확한 오디오-비디오 정렬을 달성합니다. FoleyCrafter의 주목할 만한 장점 중 하나는 텍스트 프롬프트와의 호환성으로, 사용자의 의도에 따라 제어 가능하고 다양한 비디오-투-오디오 생성을 위해 텍스트 설명을 사용할 수 있습니다. 우리는 FoleyCrafter의 효과를 검증하기 위해 표준 벤치마크에서 광범위한 정량적 및 정성적 실험을 수행했습니다. 모델과 코드는 https://github.com/open-mmlab/FoleyCrafter에서 확인할 수 있습니다.
English
We study Neural Foley, the automatic generation of high-quality sound effects
synchronizing with videos, enabling an immersive audio-visual experience.
Despite its wide range of applications, existing approaches encounter
limitations when it comes to simultaneously synthesizing high-quality and
video-aligned (i.e.,, semantic relevant and temporal synchronized) sounds. To
overcome these limitations, we propose FoleyCrafter, a novel framework that
leverages a pre-trained text-to-audio model to ensure high-quality audio
generation. FoleyCrafter comprises two key components: the semantic adapter for
semantic alignment and the temporal controller for precise audio-video
synchronization. The semantic adapter utilizes parallel cross-attention layers
to condition audio generation on video features, producing realistic sound
effects that are semantically relevant to the visual content. Meanwhile, the
temporal controller incorporates an onset detector and a timestampbased adapter
to achieve precise audio-video alignment. One notable advantage of FoleyCrafter
is its compatibility with text prompts, enabling the use of text descriptions
to achieve controllable and diverse video-to-audio generation according to user
intents. We conduct extensive quantitative and qualitative experiments on
standard benchmarks to verify the effectiveness of FoleyCrafter. Models and
codes are available at https://github.com/open-mmlab/FoleyCrafter.Summary
AI-Generated Summary