FoleyCrafter: Dê Vida a Vídeos Silenciosos com Sons Realistas e Sincronizados
FoleyCrafter: Bring Silent Videos to Life with Lifelike and Synchronized Sounds
July 1, 2024
Autores: Yiming Zhang, Yicheng Gu, Yanhong Zeng, Zhening Xing, Yuancheng Wang, Zhizheng Wu, Kai Chen
cs.AI
Resumo
Estudamos o Neural Foley, a geração automática de efeitos sonoros de alta qualidade sincronizados com vídeos, permitindo uma experiência audiovisual imersiva. Apesar de sua ampla gama de aplicações, abordagens existentes encontram limitações ao sintetizar simultaneamente sons de alta qualidade e alinhados com vídeos (ou seja, semanticamente relevantes e sincronizados temporalmente). Para superar essas limitações, propomos o FoleyCrafter, um novo framework que aproveita um modelo pré-treinado de texto para áudio para garantir a geração de áudio de alta qualidade. FoleyCrafter é composto por dois componentes principais: o adaptador semântico para alinhamento semântico e o controlador temporal para sincronização precisa de áudio e vídeo. O adaptador semântico utiliza camadas de atenção cruzada paralelas para condicionar a geração de áudio em características de vídeo, produzindo efeitos sonoros realistas que são semanticamente relevantes para o conteúdo visual. Enquanto isso, o controlador temporal incorpora um detector de início e um adaptador baseado em marca de tempo para alcançar um alinhamento preciso de áudio e vídeo. Uma vantagem notável do FoleyCrafter é sua compatibilidade com prompts de texto, permitindo o uso de descrições de texto para alcançar uma geração de vídeo para áudio controlável e diversificada de acordo com as intenções do usuário. Realizamos experimentos quantitativos e qualitativos extensivos em benchmarks padrão para verificar a eficácia do FoleyCrafter. Modelos e códigos estão disponíveis em https://github.com/open-mmlab/FoleyCrafter.
English
We study Neural Foley, the automatic generation of high-quality sound effects
synchronizing with videos, enabling an immersive audio-visual experience.
Despite its wide range of applications, existing approaches encounter
limitations when it comes to simultaneously synthesizing high-quality and
video-aligned (i.e.,, semantic relevant and temporal synchronized) sounds. To
overcome these limitations, we propose FoleyCrafter, a novel framework that
leverages a pre-trained text-to-audio model to ensure high-quality audio
generation. FoleyCrafter comprises two key components: the semantic adapter for
semantic alignment and the temporal controller for precise audio-video
synchronization. The semantic adapter utilizes parallel cross-attention layers
to condition audio generation on video features, producing realistic sound
effects that are semantically relevant to the visual content. Meanwhile, the
temporal controller incorporates an onset detector and a timestampbased adapter
to achieve precise audio-video alignment. One notable advantage of FoleyCrafter
is its compatibility with text prompts, enabling the use of text descriptions
to achieve controllable and diverse video-to-audio generation according to user
intents. We conduct extensive quantitative and qualitative experiments on
standard benchmarks to verify the effectiveness of FoleyCrafter. Models and
codes are available at https://github.com/open-mmlab/FoleyCrafter.