マルチモーダル制御を用いたビデオガイドフリーサウンド生成
Video-Guided Foley Sound Generation with Multimodal Controls
November 26, 2024
著者: Ziyang Chen, Prem Seetharaman, Bryan Russell, Oriol Nieto, David Bourgin, Andrew Owens, Justin Salamon
cs.AI
要旨
動画の効果音を生成するには、しばしば現実の音源から大きく逸脱した芸術的な効果音を作成し、音響デザインで柔軟な制御が必要とされます。この問題に対処するために、我々はMultiFoleyを導入します。これは、テキスト、オーディオ、ビデオを介したマルチモーダルな条件付けをサポートするビデオガイド型音声生成モデルです。無音のビデオとテキストプロンプトが与えられると、MultiFoleyは、ユーザーがクリーンな音(例:風の音がないスケートボードの車輪の回転音)やより風変わりな音(例:ライオンの咆哮を猫の鳴き声のように聞こえるようにする)を作成できるようにします。また、MultiFoleyは、条件付けのために効果音(SFX)ライブラリや部分的なビデオからリファレンスオーディオを選択することも可能です。当モデルの主要な革新点は、低品質のオーディオを持つインターネットビデオデータセットとプロのSFX録音の両方での共同トレーニングにあり、高品質でフルバンド幅(48kHz)の音声生成を実現しています。自動評価とヒューマンスタディを通じて、MultiFoleyがさまざまな条件付き入力にわたって同期した高品質な音を生成し、既存の手法を凌駕していることを示します。ビデオの結果については、弊社のプロジェクトページをご覧ください:https://ificl.github.io/MultiFoley/
English
Generating sound effects for videos often requires creating artistic sound
effects that diverge significantly from real-life sources and flexible control
in the sound design. To address this problem, we introduce MultiFoley, a model
designed for video-guided sound generation that supports multimodal
conditioning through text, audio, and video. Given a silent video and a text
prompt, MultiFoley allows users to create clean sounds (e.g., skateboard wheels
spinning without wind noise) or more whimsical sounds (e.g., making a lion's
roar sound like a cat's meow). MultiFoley also allows users to choose reference
audio from sound effects (SFX) libraries or partial videos for conditioning. A
key novelty of our model lies in its joint training on both internet video
datasets with low-quality audio and professional SFX recordings, enabling
high-quality, full-bandwidth (48kHz) audio generation. Through automated
evaluations and human studies, we demonstrate that MultiFoley successfully
generates synchronized high-quality sounds across varied conditional inputs and
outperforms existing methods. Please see our project page for video results:
https://ificl.github.io/MultiFoley/Summary
AI-Generated Summary