Génération de sons Foley guidée par vidéo avec contrôles multimodaux
Video-Guided Foley Sound Generation with Multimodal Controls
November 26, 2024
Auteurs: Ziyang Chen, Prem Seetharaman, Bryan Russell, Oriol Nieto, David Bourgin, Andrew Owens, Justin Salamon
cs.AI
Résumé
La génération d'effets sonores pour les vidéos nécessite souvent la création d'effets sonores artistiques qui s'éloignent considérablement des sources réelles et offrent un contrôle flexible dans la conception sonore. Pour résoudre ce problème, nous présentons MultiFoley, un modèle conçu pour la génération sonore guidée par la vidéo qui prend en charge la condition multimodale à travers du texte, de l'audio et de la vidéo. En donnant une vidéo silencieuse et un texte d'indication, MultiFoley permet aux utilisateurs de créer des sons propres (par exemple, les roues d'un skateboard tournant sans bruit de vent) ou des sons plus fantaisistes (par exemple, faire en sorte qu'un rugissement de lion ressemble à un miaulement de chat). MultiFoley permet également aux utilisateurs de choisir un audio de référence à partir de bibliothèques d'effets sonores (SFX) ou de vidéos partielles pour la condition. Une nouveauté clé de notre modèle réside dans son entraînement conjoint sur à la fois des ensembles de données vidéo sur internet avec un audio de faible qualité et des enregistrements professionnels d'effets sonores, permettant une génération audio de haute qualité et pleine bande passante (48kHz). À travers des évaluations automatisées et des études humaines, nous démontrons que MultiFoley génère avec succès des sons de haute qualité synchronisés à travers diverses entrées conditionnelles et surpasse les méthodes existantes. Veuillez consulter notre page de projet pour les résultats vidéo: https://ificl.github.io/MultiFoley/
English
Generating sound effects for videos often requires creating artistic sound
effects that diverge significantly from real-life sources and flexible control
in the sound design. To address this problem, we introduce MultiFoley, a model
designed for video-guided sound generation that supports multimodal
conditioning through text, audio, and video. Given a silent video and a text
prompt, MultiFoley allows users to create clean sounds (e.g., skateboard wheels
spinning without wind noise) or more whimsical sounds (e.g., making a lion's
roar sound like a cat's meow). MultiFoley also allows users to choose reference
audio from sound effects (SFX) libraries or partial videos for conditioning. A
key novelty of our model lies in its joint training on both internet video
datasets with low-quality audio and professional SFX recordings, enabling
high-quality, full-bandwidth (48kHz) audio generation. Through automated
evaluations and human studies, we demonstrate that MultiFoley successfully
generates synchronized high-quality sounds across varied conditional inputs and
outperforms existing methods. Please see our project page for video results:
https://ificl.github.io/MultiFoley/Summary
AI-Generated Summary