FoleyCrafter: Dona Vita ai Video Silenziosi con Suoni Realistici e Sincronizzati
FoleyCrafter: Bring Silent Videos to Life with Lifelike and Synchronized Sounds
July 1, 2024
Autori: Yiming Zhang, Yicheng Gu, Yanhong Zeng, Zhening Xing, Yuancheng Wang, Zhizheng Wu, Kai Chen
cs.AI
Abstract
Studiamo Neural Foley, la generazione automatica di effetti sonori di alta qualità sincronizzati con i video, per un'esperienza audiovisiva immersiva. Nonostante le sue ampie applicazioni, gli approcci esistenti presentano limitazioni quando si tratta di sintetizzare simultaneamente suoni di alta qualità e allineati al video (cioè semanticamente rilevanti e temporalmente sincronizzati). Per superare queste limitazioni, proponiamo FoleyCrafter, un nuovo framework che sfrutta un modello pre-addestrato di testo-audio per garantire una generazione audio di alta qualità. FoleyCrafter comprende due componenti chiave: l'adattatore semantico per l'allineamento semantico e il controllore temporale per una precisa sincronizzazione audio-video. L'adattatore semantico utilizza strati di cross-attention paralleli per condizionare la generazione audio sulle caratteristiche del video, producendo effetti sonori realistici e semanticamente rilevanti rispetto al contenuto visivo. Nel frattempo, il controllore temporale incorpora un rilevatore di onset e un adattatore basato su timestamp per ottenere un preciso allineamento audio-video. Un vantaggio notevole di FoleyCrafter è la sua compatibilità con i prompt di testo, che consente l'uso di descrizioni testuali per ottenere una generazione video-audio controllabile e diversificata in base alle intenzioni dell'utente. Abbiamo condotto ampi esperimenti quantitativi e qualitativi su benchmark standard per verificare l'efficacia di FoleyCrafter. Modelli e codici sono disponibili all'indirizzo https://github.com/open-mmlab/FoleyCrafter.
English
We study Neural Foley, the automatic generation of high-quality sound effects
synchronizing with videos, enabling an immersive audio-visual experience.
Despite its wide range of applications, existing approaches encounter
limitations when it comes to simultaneously synthesizing high-quality and
video-aligned (i.e.,, semantic relevant and temporal synchronized) sounds. To
overcome these limitations, we propose FoleyCrafter, a novel framework that
leverages a pre-trained text-to-audio model to ensure high-quality audio
generation. FoleyCrafter comprises two key components: the semantic adapter for
semantic alignment and the temporal controller for precise audio-video
synchronization. The semantic adapter utilizes parallel cross-attention layers
to condition audio generation on video features, producing realistic sound
effects that are semantically relevant to the visual content. Meanwhile, the
temporal controller incorporates an onset detector and a timestampbased adapter
to achieve precise audio-video alignment. One notable advantage of FoleyCrafter
is its compatibility with text prompts, enabling the use of text descriptions
to achieve controllable and diverse video-to-audio generation according to user
intents. We conduct extensive quantitative and qualitative experiments on
standard benchmarks to verify the effectiveness of FoleyCrafter. Models and
codes are available at https://github.com/open-mmlab/FoleyCrafter.