ChatPaper.aiChatPaper

Video-gesteuerte Foley-Sound-Erzeugung mit multimodalen Steuerelementen.

Video-Guided Foley Sound Generation with Multimodal Controls

November 26, 2024
Autoren: Ziyang Chen, Prem Seetharaman, Bryan Russell, Oriol Nieto, David Bourgin, Andrew Owens, Justin Salamon
cs.AI

Zusammenfassung

Die Erzeugung von Soundeffekten für Videos erfordert oft die Schaffung künstlerischer Soundeffekte, die sich deutlich von realen Quellen unterscheiden und eine flexible Kontrolle im Sounddesign ermöglichen. Um dieses Problem zu lösen, stellen wir MultiFoley vor, ein Modell, das für die videogestützte Soundgenerierung konzipiert ist und multimodale Konditionierung durch Text, Audio und Video unterstützt. Anhand eines stummen Videos und einer Textvorgabe ermöglicht es MultiFoley den Benutzern, saubere Klänge zu erzeugen (z. B. Skateboardräder, die ohne Windgeräusche drehen) oder auch fantasievollere Klänge (z. B. das Brüllen eines Löwen wie das Miauen einer Katze klingen zu lassen). MultiFoley ermöglicht es den Benutzern auch, Referenzaudio aus Soundeffekt (SFX)-Bibliotheken oder Teilen von Videos für die Konditionierung auszuwählen. Eine wichtige Neuheit unseres Modells liegt in seinem gemeinsamen Training sowohl auf Internetvideodatensätzen mit Audio von geringer Qualität als auch auf professionellen SFX-Aufnahmen, was eine hochwertige, vollbandbreitige (48kHz) Audioerzeugung ermöglicht. Durch automatisierte Bewertungen und Studien mit menschlichen Teilnehmern zeigen wir, dass MultiFoley erfolgreich hochwertige, synchronisierte Klänge über verschiedene bedingte Eingaben hinweg erzeugt und bestehende Methoden übertrifft. Bitte besuchen Sie unsere Projektseite für Videobeispiele: https://ificl.github.io/MultiFoley/
English
Generating sound effects for videos often requires creating artistic sound effects that diverge significantly from real-life sources and flexible control in the sound design. To address this problem, we introduce MultiFoley, a model designed for video-guided sound generation that supports multimodal conditioning through text, audio, and video. Given a silent video and a text prompt, MultiFoley allows users to create clean sounds (e.g., skateboard wheels spinning without wind noise) or more whimsical sounds (e.g., making a lion's roar sound like a cat's meow). MultiFoley also allows users to choose reference audio from sound effects (SFX) libraries or partial videos for conditioning. A key novelty of our model lies in its joint training on both internet video datasets with low-quality audio and professional SFX recordings, enabling high-quality, full-bandwidth (48kHz) audio generation. Through automated evaluations and human studies, we demonstrate that MultiFoley successfully generates synchronized high-quality sounds across varied conditional inputs and outperforms existing methods. Please see our project page for video results: https://ificl.github.io/MultiFoley/

Summary

AI-Generated Summary

PDF102November 28, 2024