MusicInfuser : Faire danser la diffusion vidéo au rythme de la musique

Résumé

Nous présentons MusicInfuser, une approche pour générer des vidéos de danse de haute qualité synchronisées avec une piste musicale spécifiée. Plutôt que de tenter de concevoir et d'entraîner un nouveau modèle multimodal audio-vidéo, nous montrons comment les modèles de diffusion vidéo existants peuvent être adaptés pour s'aligner sur des entrées musicales en introduisant une attention croisée légère musique-vidéo et un adaptateur à faible rang. Contrairement aux travaux antérieurs nécessitant des données de capture de mouvement, notre approche se limite à un fine-tuning sur des vidéos de danse. MusicInfuser permet une génération de vidéos pilotée par la musique de haute qualité tout en préservant la flexibilité et les capacités génératives des modèles sous-jacents. Nous introduisons un cadre d'évaluation utilisant des Video-LLMs pour évaluer plusieurs dimensions de la qualité de la génération de danse. La page du projet et le code sont disponibles à l'adresse https://susunghong.github.io/MusicInfuser.

English

We introduce MusicInfuser, an approach for generating high-quality dance videos that are synchronized to a specified music track. Rather than attempting to design and train a new multimodal audio-video model, we show how existing video diffusion models can be adapted to align with musical inputs by introducing lightweight music-video cross-attention and a low-rank adapter. Unlike prior work requiring motion capture data, our approach fine-tunes only on dance videos. MusicInfuser achieves high-quality music-driven video generation while preserving the flexibility and generative capabilities of the underlying models. We introduce an evaluation framework using Video-LLMs to assess multiple dimensions of dance generation quality. The project page and code are available at https://susunghong.github.io/MusicInfuser.