MusicInfuser: ビデオ拡散モデルに音楽を聴かせ、踊らせる
MusicInfuser: Making Video Diffusion Listen and Dance
March 18, 2025
著者: Susung Hong, Ira Kemelmacher-Shlizerman, Brian Curless, Steven M. Seitz
cs.AI
要旨
私たちは、指定された音楽トラックに同期した高品質なダンスビデオを生成するアプローチであるMusicInfuserを紹介します。新しいマルチモーダルな音声-ビデオモデルを設計・訓練するのではなく、既存のビデオ拡散モデルを音楽入力に合わせて適応させる方法を示します。これには、軽量な音楽-ビデオクロスアテンションと低ランクアダプターを導入します。モーションキャプチャデータを必要とする従来の研究とは異なり、私たちのアプローチはダンスビデオのみに基づいてファインチューニングを行います。MusicInfuserは、基盤となるモデルの柔軟性と生成能力を維持しながら、高品質な音楽駆動型ビデオ生成を実現します。また、Video-LLMを使用してダンス生成の品質を多角的に評価するフレームワークを導入します。プロジェクトページとコードはhttps://susunghong.github.io/MusicInfuserで公開されています。
English
We introduce MusicInfuser, an approach for generating high-quality dance
videos that are synchronized to a specified music track. Rather than attempting
to design and train a new multimodal audio-video model, we show how existing
video diffusion models can be adapted to align with musical inputs by
introducing lightweight music-video cross-attention and a low-rank adapter.
Unlike prior work requiring motion capture data, our approach fine-tunes only
on dance videos. MusicInfuser achieves high-quality music-driven video
generation while preserving the flexibility and generative capabilities of the
underlying models. We introduce an evaluation framework using Video-LLMs to
assess multiple dimensions of dance generation quality. The project page and
code are available at https://susunghong.github.io/MusicInfuser.Summary
AI-Generated Summary