Video-Foley: Generación de Sonido a partir de Video en Dos Etapas a través de la Condición de Eventos Temporales para Sonido Foley
Video-Foley: Two-Stage Video-To-Sound Generation via Temporal Event Condition For Foley Sound
August 21, 2024
Autores: Junwon Lee, Jaekwon Im, Dabin Kim, Juhan Nam
cs.AI
Resumen
La síntesis de sonido Foley es crucial para la producción multimedia, mejorando la experiencia del usuario al sincronizar el audio y el video tanto temporal como semánticamente. Estudios recientes sobre la automatización de este proceso intensivo en mano de obra a través de la generación de video a sonido enfrentan desafíos significativos. Los sistemas que carecen de características temporales explícitas sufren de una baja controlabilidad y alineación, mientras que los modelos basados en marcas de tiempo requieren una costosa y subjetiva anotación humana. Proponemos Video-Foley, un sistema de video a sonido que utiliza la Raíz de la Media Cuadrática (RMS) como una condición temporal de evento con indicaciones semánticas de timbre (audio o texto). RMS, una característica de envolvente de intensidad a nivel de cuadro estrechamente relacionada con la semántica de audio, garantiza una alta controlabilidad y sincronización. El marco de aprendizaje auto-supervisado sin anotaciones consta de dos etapas, Video2RMS y RMS2Sound, incorporando ideas novedosas que incluyen la discretización de RMS y RMS-ControlNet con un modelo preentrenado de texto a audio. Nuestra extensa evaluación muestra que Video-Foley logra un rendimiento de vanguardia en la alineación audiovisual y controlabilidad para el tiempo, intensidad, timbre y matiz del sonido. El código, los pesos del modelo y las demostraciones están disponibles en el sitio web adjunto. (https://jnwnlee.github.io/video-foley-demo)
English
Foley sound synthesis is crucial for multimedia production, enhancing user
experience by synchronizing audio and video both temporally and semantically.
Recent studies on automating this labor-intensive process through
video-to-sound generation face significant challenges. Systems lacking explicit
temporal features suffer from poor controllability and alignment, while
timestamp-based models require costly and subjective human annotation. We
propose Video-Foley, a video-to-sound system using Root Mean Square (RMS) as a
temporal event condition with semantic timbre prompts (audio or text). RMS, a
frame-level intensity envelope feature closely related to audio semantics,
ensures high controllability and synchronization. The annotation-free
self-supervised learning framework consists of two stages, Video2RMS and
RMS2Sound, incorporating novel ideas including RMS discretization and
RMS-ControlNet with a pretrained text-to-audio model. Our extensive evaluation
shows that Video-Foley achieves state-of-the-art performance in audio-visual
alignment and controllability for sound timing, intensity, timbre, and nuance.
Code, model weights, and demonstrations are available on the accompanying
website. (https://jnwnlee.github.io/video-foley-demo)