Video-gesteuerte Foley-Sound-Erzeugung mit multimodalen Steuerelementen.
Video-Guided Foley Sound Generation with Multimodal Controls
November 26, 2024
Autoren: Ziyang Chen, Prem Seetharaman, Bryan Russell, Oriol Nieto, David Bourgin, Andrew Owens, Justin Salamon
cs.AI
Zusammenfassung
Die Erzeugung von Soundeffekten für Videos erfordert oft die Schaffung künstlerischer Soundeffekte, die sich deutlich von realen Quellen unterscheiden und eine flexible Kontrolle im Sounddesign ermöglichen. Um dieses Problem zu lösen, stellen wir MultiFoley vor, ein Modell, das für die videogestützte Soundgenerierung konzipiert ist und multimodale Konditionierung durch Text, Audio und Video unterstützt. Anhand eines stummen Videos und einer Textvorgabe ermöglicht es MultiFoley den Benutzern, saubere Klänge zu erzeugen (z. B. Skateboardräder, die ohne Windgeräusche drehen) oder auch fantasievollere Klänge (z. B. das Brüllen eines Löwen wie das Miauen einer Katze klingen zu lassen). MultiFoley ermöglicht es den Benutzern auch, Referenzaudio aus Soundeffekt (SFX)-Bibliotheken oder Teilen von Videos für die Konditionierung auszuwählen. Eine wichtige Neuheit unseres Modells liegt in seinem gemeinsamen Training sowohl auf Internetvideodatensätzen mit Audio von geringer Qualität als auch auf professionellen SFX-Aufnahmen, was eine hochwertige, vollbandbreitige (48kHz) Audioerzeugung ermöglicht. Durch automatisierte Bewertungen und Studien mit menschlichen Teilnehmern zeigen wir, dass MultiFoley erfolgreich hochwertige, synchronisierte Klänge über verschiedene bedingte Eingaben hinweg erzeugt und bestehende Methoden übertrifft. Bitte besuchen Sie unsere Projektseite für Videobeispiele: https://ificl.github.io/MultiFoley/
English
Generating sound effects for videos often requires creating artistic sound
effects that diverge significantly from real-life sources and flexible control
in the sound design. To address this problem, we introduce MultiFoley, a model
designed for video-guided sound generation that supports multimodal
conditioning through text, audio, and video. Given a silent video and a text
prompt, MultiFoley allows users to create clean sounds (e.g., skateboard wheels
spinning without wind noise) or more whimsical sounds (e.g., making a lion's
roar sound like a cat's meow). MultiFoley also allows users to choose reference
audio from sound effects (SFX) libraries or partial videos for conditioning. A
key novelty of our model lies in its joint training on both internet video
datasets with low-quality audio and professional SFX recordings, enabling
high-quality, full-bandwidth (48kHz) audio generation. Through automated
evaluations and human studies, we demonstrate that MultiFoley successfully
generates synchronized high-quality sounds across varied conditional inputs and
outperforms existing methods. Please see our project page for video results:
https://ificl.github.io/MultiFoley/Summary
AI-Generated Summary