Video-geleide Foley-geluidsgeneratie met multimodale bedieningselementen
Video-Guided Foley Sound Generation with Multimodal Controls
November 26, 2024
Auteurs: Ziyang Chen, Prem Seetharaman, Bryan Russell, Oriol Nieto, David Bourgin, Andrew Owens, Justin Salamon
cs.AI
Samenvatting
Het genereren van geluidseffecten voor video's vereist vaak het creëren van artistieke geluidseffecten die aanzienlijk afwijken van bronnen in het echte leven en flexibele controle in het geluidsontwerp. Om dit probleem aan te pakken, introduceren we MultiFoley, een model ontworpen voor video-geleide geluidsproductie dat multimodale conditionering ondersteunt via tekst, audio en video. Met behulp van een stille video en een tekstprompt stelt MultiFoley gebruikers in staat om schone geluiden te creëren (bijv. skateboardwielen die draaien zonder windgeluid) of meer grillige geluiden (bijv. een leeuwenbrul die klinkt als het gemiauw van een kat). MultiFoley stelt gebruikers ook in staat om referentie-audio te kiezen uit geluidseffecten (SFX) bibliotheken of gedeeltelijke video's voor conditionering. Een belangrijke noviteit van ons model ligt in zijn gezamenlijke training op zowel internetvideodatasets met audio van lage kwaliteit als professionele SFX-opnames, waardoor hoogwaardige, volledige bandbreedte (48 kHz) audioproductie mogelijk is. Door geautomatiseerde evaluaties en menselijke studies tonen we aan dat MultiFoley succesvol gesynchroniseerde geluiden van hoge kwaliteit genereert over verschillende conditionele invoer en bestaande methoden overtreft. Zie onze projectpagina voor videoregistraties: https://ificl.github.io/MultiFoley/
English
Generating sound effects for videos often requires creating artistic sound
effects that diverge significantly from real-life sources and flexible control
in the sound design. To address this problem, we introduce MultiFoley, a model
designed for video-guided sound generation that supports multimodal
conditioning through text, audio, and video. Given a silent video and a text
prompt, MultiFoley allows users to create clean sounds (e.g., skateboard wheels
spinning without wind noise) or more whimsical sounds (e.g., making a lion's
roar sound like a cat's meow). MultiFoley also allows users to choose reference
audio from sound effects (SFX) libraries or partial videos for conditioning. A
key novelty of our model lies in its joint training on both internet video
datasets with low-quality audio and professional SFX recordings, enabling
high-quality, full-bandwidth (48kHz) audio generation. Through automated
evaluations and human studies, we demonstrate that MultiFoley successfully
generates synchronized high-quality sounds across varied conditional inputs and
outperforms existing methods. Please see our project page for video results:
https://ificl.github.io/MultiFoley/Summary
AI-Generated Summary