FoleyCrafter: Dar vida a videos silenciosos con sonidos realistas y sincronizados
FoleyCrafter: Bring Silent Videos to Life with Lifelike and Synchronized Sounds
July 1, 2024
Autores: Yiming Zhang, Yicheng Gu, Yanhong Zeng, Zhening Xing, Yuancheng Wang, Zhizheng Wu, Kai Chen
cs.AI
Resumen
Estudiamos Neural Foley, la generación automática de efectos de sonido de alta calidad sincronizados con videos, permitiendo una experiencia audiovisual inmersiva. A pesar de su amplio rango de aplicaciones, los enfoques existentes encuentran limitaciones al sintetizar simultáneamente sonidos de alta calidad y alineados con el video (es decir, relevantes semánticamente y sincronizados temporalmente). Para superar estas limitaciones, proponemos FoleyCrafter, un marco novedoso que aprovecha un modelo pre-entrenado de texto a audio para garantizar una generación de audio de alta calidad. FoleyCrafter consta de dos componentes clave: el adaptador semántico para alineación semántica y el controlador temporal para una sincronización precisa audio-video. El adaptador semántico utiliza capas de atención cruzada paralelas para condicionar la generación de audio en las características del video, produciendo efectos de sonido realistas que son semánticamente relevantes al contenido visual. Mientras tanto, el controlador temporal incorpora un detector de inicio y un adaptador basado en marcas de tiempo para lograr una alineación precisa audio-video. Una ventaja notable de FoleyCrafter es su compatibilidad con indicaciones de texto, lo que permite el uso de descripciones de texto para lograr una generación de video a audio controlable y diversa según las intenciones del usuario. Realizamos experimentos cuantitativos y cualitativos extensos en bancos de pruebas estándar para verificar la efectividad de FoleyCrafter. Los modelos y códigos están disponibles en https://github.com/open-mmlab/FoleyCrafter.
English
We study Neural Foley, the automatic generation of high-quality sound effects
synchronizing with videos, enabling an immersive audio-visual experience.
Despite its wide range of applications, existing approaches encounter
limitations when it comes to simultaneously synthesizing high-quality and
video-aligned (i.e.,, semantic relevant and temporal synchronized) sounds. To
overcome these limitations, we propose FoleyCrafter, a novel framework that
leverages a pre-trained text-to-audio model to ensure high-quality audio
generation. FoleyCrafter comprises two key components: the semantic adapter for
semantic alignment and the temporal controller for precise audio-video
synchronization. The semantic adapter utilizes parallel cross-attention layers
to condition audio generation on video features, producing realistic sound
effects that are semantically relevant to the visual content. Meanwhile, the
temporal controller incorporates an onset detector and a timestampbased adapter
to achieve precise audio-video alignment. One notable advantage of FoleyCrafter
is its compatibility with text prompts, enabling the use of text descriptions
to achieve controllable and diverse video-to-audio generation according to user
intents. We conduct extensive quantitative and qualitative experiments on
standard benchmarks to verify the effectiveness of FoleyCrafter. Models and
codes are available at https://github.com/open-mmlab/FoleyCrafter.Summary
AI-Generated Summary