Video-Foley: Generación de Sonido a partir de Video en Dos Etapas a través de la Condición de Eventos Temporales para Sonido Foley

Resumen

La síntesis de sonido Foley es crucial para la producción multimedia, mejorando la experiencia del usuario al sincronizar el audio y el video tanto temporal como semánticamente. Estudios recientes sobre la automatización de este proceso intensivo en mano de obra a través de la generación de video a sonido enfrentan desafíos significativos. Los sistemas que carecen de características temporales explícitas sufren de una baja controlabilidad y alineación, mientras que los modelos basados en marcas de tiempo requieren una costosa y subjetiva anotación humana. Proponemos Video-Foley, un sistema de video a sonido que utiliza la Raíz de la Media Cuadrática (RMS) como una condición temporal de evento con indicaciones semánticas de timbre (audio o texto). RMS, una característica de envolvente de intensidad a nivel de cuadro estrechamente relacionada con la semántica de audio, garantiza una alta controlabilidad y sincronización. El marco de aprendizaje auto-supervisado sin anotaciones consta de dos etapas, Video2RMS y RMS2Sound, incorporando ideas novedosas que incluyen la discretización de RMS y RMS-ControlNet con un modelo preentrenado de texto a audio. Nuestra extensa evaluación muestra que Video-Foley logra un rendimiento de vanguardia en la alineación audiovisual y controlabilidad para el tiempo, intensidad, timbre y matiz del sonido. El código, los pesos del modelo y las demostraciones están disponibles en el sitio web adjunto. (https://jnwnlee.github.io/video-foley-demo)

English

Foley sound synthesis is crucial for multimedia production, enhancing user experience by synchronizing audio and video both temporally and semantically. Recent studies on automating this labor-intensive process through video-to-sound generation face significant challenges. Systems lacking explicit temporal features suffer from poor controllability and alignment, while timestamp-based models require costly and subjective human annotation. We propose Video-Foley, a video-to-sound system using Root Mean Square (RMS) as a temporal event condition with semantic timbre prompts (audio or text). RMS, a frame-level intensity envelope feature closely related to audio semantics, ensures high controllability and synchronization. The annotation-free self-supervised learning framework consists of two stages, Video2RMS and RMS2Sound, incorporating novel ideas including RMS discretization and RMS-ControlNet with a pretrained text-to-audio model. Our extensive evaluation shows that Video-Foley achieves state-of-the-art performance in audio-visual alignment and controllability for sound timing, intensity, timbre, and nuance. Code, model weights, and demonstrations are available on the accompanying website. (https://jnwnlee.github.io/video-foley-demo)

Video-Foley: Generación de Sonido a partir de Video en Dos Etapas a través de la Condición de Eventos Temporales para Sonido Foley

Video-Foley: Two-Stage Video-To-Sound Generation via Temporal Event Condition For Foley Sound

Resumen

Support