Video-Foley: Zweistufige Video-zu-Sound-Generierung über zeitliche Ereignisbedingung für Foley-Sound

papers.abstract

Die Foley-Klangsynthese ist entscheidend für die Multimedia-Produktion und verbessert die Benutzererfahrung, indem sie Audio und Video sowohl zeitlich als auch semantisch synchronisiert. Aktuelle Studien zur Automatisierung dieses arbeitsintensiven Prozesses durch die Video-zu-Klang-Erzeugung stehen vor erheblichen Herausforderungen. Systeme, die explizite zeitliche Merkmale vermissen lassen, leiden unter schlechter Steuerbarkeit und Ausrichtung, während timestamp-basierte Modelle teure und subjektive menschliche Annotationen erfordern. Wir schlagen Video-Foley vor, ein Video-zu-Klang-System, das den Root Mean Square (RMS) als zeitliches Ereignisbedingung mit semantischen Klangfarbenvorgaben (Audio oder Text) verwendet. RMS, ein Merkmal des Intensitätsverlaufs auf Frame-Ebene, das eng mit der Audiosemantik verbunden ist, gewährleistet eine hohe Steuerbarkeit und Synchronisation. Das annotationsfreie selbstüberwachte Lernframework besteht aus zwei Phasen, Video2RMS und RMS2Sound, und integriert neue Ideen, darunter RMS-Diskretisierung und RMS-ControlNet mit einem vortrainierten Text-zu-Audio-Modell. Unsere umfangreiche Evaluation zeigt, dass Video-Foley eine Spitzenleistung bei der audiovisuellen Ausrichtung und Steuerbarkeit für Klangtiming, Intensität, Klangfarbe und Feinheiten erreicht. Der Code, die Modellgewichte und Demonstrationen sind auf der begleitenden Website verfügbar. (https://jnwnlee.github.io/video-foley-demo)

English

Foley sound synthesis is crucial for multimedia production, enhancing user experience by synchronizing audio and video both temporally and semantically. Recent studies on automating this labor-intensive process through video-to-sound generation face significant challenges. Systems lacking explicit temporal features suffer from poor controllability and alignment, while timestamp-based models require costly and subjective human annotation. We propose Video-Foley, a video-to-sound system using Root Mean Square (RMS) as a temporal event condition with semantic timbre prompts (audio or text). RMS, a frame-level intensity envelope feature closely related to audio semantics, ensures high controllability and synchronization. The annotation-free self-supervised learning framework consists of two stages, Video2RMS and RMS2Sound, incorporating novel ideas including RMS discretization and RMS-ControlNet with a pretrained text-to-audio model. Our extensive evaluation shows that Video-Foley achieves state-of-the-art performance in audio-visual alignment and controllability for sound timing, intensity, timbre, and nuance. Code, model weights, and demonstrations are available on the accompanying website. (https://jnwnlee.github.io/video-foley-demo)

Video-Foley: Zweistufige Video-zu-Sound-Generierung über zeitliche Ereignisbedingung für Foley-Sound

Video-Foley: Two-Stage Video-To-Sound Generation via Temporal Event Condition For Foley Sound

papers.abstract

Support