FoleyCrafter: Dar vida a videos silenciosos con sonidos realistas y sincronizados

Resumen

Estudiamos Neural Foley, la generación automática de efectos de sonido de alta calidad sincronizados con videos, permitiendo una experiencia audiovisual inmersiva. A pesar de su amplio rango de aplicaciones, los enfoques existentes encuentran limitaciones al sintetizar simultáneamente sonidos de alta calidad y alineados con el video (es decir, relevantes semánticamente y sincronizados temporalmente). Para superar estas limitaciones, proponemos FoleyCrafter, un marco novedoso que aprovecha un modelo pre-entrenado de texto a audio para garantizar una generación de audio de alta calidad. FoleyCrafter consta de dos componentes clave: el adaptador semántico para alineación semántica y el controlador temporal para una sincronización precisa audio-video. El adaptador semántico utiliza capas de atención cruzada paralelas para condicionar la generación de audio en las características del video, produciendo efectos de sonido realistas que son semánticamente relevantes al contenido visual. Mientras tanto, el controlador temporal incorpora un detector de inicio y un adaptador basado en marcas de tiempo para lograr una alineación precisa audio-video. Una ventaja notable de FoleyCrafter es su compatibilidad con indicaciones de texto, lo que permite el uso de descripciones de texto para lograr una generación de video a audio controlable y diversa según las intenciones del usuario. Realizamos experimentos cuantitativos y cualitativos extensos en bancos de pruebas estándar para verificar la efectividad de FoleyCrafter. Los modelos y códigos están disponibles en https://github.com/open-mmlab/FoleyCrafter.

English

We study Neural Foley, the automatic generation of high-quality sound effects synchronizing with videos, enabling an immersive audio-visual experience. Despite its wide range of applications, existing approaches encounter limitations when it comes to simultaneously synthesizing high-quality and video-aligned (i.e.,, semantic relevant and temporal synchronized) sounds. To overcome these limitations, we propose FoleyCrafter, a novel framework that leverages a pre-trained text-to-audio model to ensure high-quality audio generation. FoleyCrafter comprises two key components: the semantic adapter for semantic alignment and the temporal controller for precise audio-video synchronization. The semantic adapter utilizes parallel cross-attention layers to condition audio generation on video features, producing realistic sound effects that are semantically relevant to the visual content. Meanwhile, the temporal controller incorporates an onset detector and a timestampbased adapter to achieve precise audio-video alignment. One notable advantage of FoleyCrafter is its compatibility with text prompts, enabling the use of text descriptions to achieve controllable and diverse video-to-audio generation according to user intents. We conduct extensive quantitative and qualitative experiments on standard benchmarks to verify the effectiveness of FoleyCrafter. Models and codes are available at https://github.com/open-mmlab/FoleyCrafter.

FoleyCrafter: Dar vida a videos silenciosos con sonidos realistas y sincronizados

FoleyCrafter: Bring Silent Videos to Life with Lifelike and Synchronized Sounds

Resumen

Support