ChatPaper.aiChatPaper

Video-Foley: Generación de Sonido a partir de Video en Dos Etapas a través de la Condición de Eventos Temporales para Sonido Foley

Video-Foley: Two-Stage Video-To-Sound Generation via Temporal Event Condition For Foley Sound

August 21, 2024
Autores: Junwon Lee, Jaekwon Im, Dabin Kim, Juhan Nam
cs.AI

Resumen

La síntesis de sonido Foley es crucial para la producción multimedia, mejorando la experiencia del usuario al sincronizar el audio y el video tanto temporal como semánticamente. Estudios recientes sobre la automatización de este proceso intensivo en mano de obra a través de la generación de video a sonido enfrentan desafíos significativos. Los sistemas que carecen de características temporales explícitas sufren de una baja controlabilidad y alineación, mientras que los modelos basados en marcas de tiempo requieren una costosa y subjetiva anotación humana. Proponemos Video-Foley, un sistema de video a sonido que utiliza la Raíz de la Media Cuadrática (RMS) como una condición temporal de evento con indicaciones semánticas de timbre (audio o texto). RMS, una característica de envolvente de intensidad a nivel de cuadro estrechamente relacionada con la semántica de audio, garantiza una alta controlabilidad y sincronización. El marco de aprendizaje auto-supervisado sin anotaciones consta de dos etapas, Video2RMS y RMS2Sound, incorporando ideas novedosas que incluyen la discretización de RMS y RMS-ControlNet con un modelo preentrenado de texto a audio. Nuestra extensa evaluación muestra que Video-Foley logra un rendimiento de vanguardia en la alineación audiovisual y controlabilidad para el tiempo, intensidad, timbre y matiz del sonido. El código, los pesos del modelo y las demostraciones están disponibles en el sitio web adjunto. (https://jnwnlee.github.io/video-foley-demo)
English
Foley sound synthesis is crucial for multimedia production, enhancing user experience by synchronizing audio and video both temporally and semantically. Recent studies on automating this labor-intensive process through video-to-sound generation face significant challenges. Systems lacking explicit temporal features suffer from poor controllability and alignment, while timestamp-based models require costly and subjective human annotation. We propose Video-Foley, a video-to-sound system using Root Mean Square (RMS) as a temporal event condition with semantic timbre prompts (audio or text). RMS, a frame-level intensity envelope feature closely related to audio semantics, ensures high controllability and synchronization. The annotation-free self-supervised learning framework consists of two stages, Video2RMS and RMS2Sound, incorporating novel ideas including RMS discretization and RMS-ControlNet with a pretrained text-to-audio model. Our extensive evaluation shows that Video-Foley achieves state-of-the-art performance in audio-visual alignment and controllability for sound timing, intensity, timbre, and nuance. Code, model weights, and demonstrations are available on the accompanying website. (https://jnwnlee.github.io/video-foley-demo)
PDF72November 16, 2024