Video-Foley: Zweistufige Video-zu-Sound-Generierung über zeitliche Ereignisbedingung für Foley-Sound
Video-Foley: Two-Stage Video-To-Sound Generation via Temporal Event Condition For Foley Sound
August 21, 2024
Autoren: Junwon Lee, Jaekwon Im, Dabin Kim, Juhan Nam
cs.AI
Zusammenfassung
Die Foley-Klangsynthese ist entscheidend für die Multimedia-Produktion und verbessert die Benutzererfahrung, indem sie Audio und Video sowohl zeitlich als auch semantisch synchronisiert. Aktuelle Studien zur Automatisierung dieses arbeitsintensiven Prozesses durch die Video-zu-Klang-Erzeugung stehen vor erheblichen Herausforderungen. Systeme, die explizite zeitliche Merkmale vermissen lassen, leiden unter schlechter Steuerbarkeit und Ausrichtung, während timestamp-basierte Modelle teure und subjektive menschliche Annotationen erfordern. Wir schlagen Video-Foley vor, ein Video-zu-Klang-System, das den Root Mean Square (RMS) als zeitliches Ereignisbedingung mit semantischen Klangfarbenvorgaben (Audio oder Text) verwendet. RMS, ein Merkmal des Intensitätsverlaufs auf Frame-Ebene, das eng mit der Audiosemantik verbunden ist, gewährleistet eine hohe Steuerbarkeit und Synchronisation. Das annotationsfreie selbstüberwachte Lernframework besteht aus zwei Phasen, Video2RMS und RMS2Sound, und integriert neue Ideen, darunter RMS-Diskretisierung und RMS-ControlNet mit einem vortrainierten Text-zu-Audio-Modell. Unsere umfangreiche Evaluation zeigt, dass Video-Foley eine Spitzenleistung bei der audiovisuellen Ausrichtung und Steuerbarkeit für Klangtiming, Intensität, Klangfarbe und Feinheiten erreicht. Der Code, die Modellgewichte und Demonstrationen sind auf der begleitenden Website verfügbar. (https://jnwnlee.github.io/video-foley-demo)
English
Foley sound synthesis is crucial for multimedia production, enhancing user
experience by synchronizing audio and video both temporally and semantically.
Recent studies on automating this labor-intensive process through
video-to-sound generation face significant challenges. Systems lacking explicit
temporal features suffer from poor controllability and alignment, while
timestamp-based models require costly and subjective human annotation. We
propose Video-Foley, a video-to-sound system using Root Mean Square (RMS) as a
temporal event condition with semantic timbre prompts (audio or text). RMS, a
frame-level intensity envelope feature closely related to audio semantics,
ensures high controllability and synchronization. The annotation-free
self-supervised learning framework consists of two stages, Video2RMS and
RMS2Sound, incorporating novel ideas including RMS discretization and
RMS-ControlNet with a pretrained text-to-audio model. Our extensive evaluation
shows that Video-Foley achieves state-of-the-art performance in audio-visual
alignment and controllability for sound timing, intensity, timbre, and nuance.
Code, model weights, and demonstrations are available on the accompanying
website. (https://jnwnlee.github.io/video-foley-demo)Summary
AI-Generated Summary