Génération de sons Foley guidée par vidéo avec contrôles multimodaux

papers.abstract

La génération d'effets sonores pour les vidéos nécessite souvent la création d'effets sonores artistiques qui s'éloignent considérablement des sources réelles et offrent un contrôle flexible dans la conception sonore. Pour résoudre ce problème, nous présentons MultiFoley, un modèle conçu pour la génération sonore guidée par la vidéo qui prend en charge la condition multimodale à travers du texte, de l'audio et de la vidéo. En donnant une vidéo silencieuse et un texte d'indication, MultiFoley permet aux utilisateurs de créer des sons propres (par exemple, les roues d'un skateboard tournant sans bruit de vent) ou des sons plus fantaisistes (par exemple, faire en sorte qu'un rugissement de lion ressemble à un miaulement de chat). MultiFoley permet également aux utilisateurs de choisir un audio de référence à partir de bibliothèques d'effets sonores (SFX) ou de vidéos partielles pour la condition. Une nouveauté clé de notre modèle réside dans son entraînement conjoint sur à la fois des ensembles de données vidéo sur internet avec un audio de faible qualité et des enregistrements professionnels d'effets sonores, permettant une génération audio de haute qualité et pleine bande passante (48kHz). À travers des évaluations automatisées et des études humaines, nous démontrons que MultiFoley génère avec succès des sons de haute qualité synchronisés à travers diverses entrées conditionnelles et surpasse les méthodes existantes. Veuillez consulter notre page de projet pour les résultats vidéo: https://ificl.github.io/MultiFoley/

English

Generating sound effects for videos often requires creating artistic sound effects that diverge significantly from real-life sources and flexible control in the sound design. To address this problem, we introduce MultiFoley, a model designed for video-guided sound generation that supports multimodal conditioning through text, audio, and video. Given a silent video and a text prompt, MultiFoley allows users to create clean sounds (e.g., skateboard wheels spinning without wind noise) or more whimsical sounds (e.g., making a lion's roar sound like a cat's meow). MultiFoley also allows users to choose reference audio from sound effects (SFX) libraries or partial videos for conditioning. A key novelty of our model lies in its joint training on both internet video datasets with low-quality audio and professional SFX recordings, enabling high-quality, full-bandwidth (48kHz) audio generation. Through automated evaluations and human studies, we demonstrate that MultiFoley successfully generates synchronized high-quality sounds across varied conditional inputs and outperforms existing methods. Please see our project page for video results: https://ificl.github.io/MultiFoley/

Génération de sons Foley guidée par vidéo avec contrôles multimodaux

Video-Guided Foley Sound Generation with Multimodal Controls

papers.abstract

Support