MusicInfuser : Faire danser la diffusion vidéo au rythme de la musique
MusicInfuser: Making Video Diffusion Listen and Dance
March 18, 2025
Auteurs: Susung Hong, Ira Kemelmacher-Shlizerman, Brian Curless, Steven M. Seitz
cs.AI
Résumé
Nous présentons MusicInfuser, une approche pour générer des vidéos de danse de haute qualité synchronisées avec une piste musicale spécifiée. Plutôt que de tenter de concevoir et d'entraîner un nouveau modèle multimodal audio-vidéo, nous montrons comment les modèles de diffusion vidéo existants peuvent être adaptés pour s'aligner sur des entrées musicales en introduisant une attention croisée légère musique-vidéo et un adaptateur à faible rang. Contrairement aux travaux antérieurs nécessitant des données de capture de mouvement, notre approche se limite à un fine-tuning sur des vidéos de danse. MusicInfuser permet une génération de vidéos pilotée par la musique de haute qualité tout en préservant la flexibilité et les capacités génératives des modèles sous-jacents. Nous introduisons un cadre d'évaluation utilisant des Video-LLMs pour évaluer plusieurs dimensions de la qualité de la génération de danse. La page du projet et le code sont disponibles à l'adresse https://susunghong.github.io/MusicInfuser.
English
We introduce MusicInfuser, an approach for generating high-quality dance
videos that are synchronized to a specified music track. Rather than attempting
to design and train a new multimodal audio-video model, we show how existing
video diffusion models can be adapted to align with musical inputs by
introducing lightweight music-video cross-attention and a low-rank adapter.
Unlike prior work requiring motion capture data, our approach fine-tunes only
on dance videos. MusicInfuser achieves high-quality music-driven video
generation while preserving the flexibility and generative capabilities of the
underlying models. We introduce an evaluation framework using Video-LLMs to
assess multiple dimensions of dance generation quality. The project page and
code are available at https://susunghong.github.io/MusicInfuser.Summary
AI-Generated Summary