MusicInfuser: Far Ballare i Video con la Diffusione Ascoltando la Musica
MusicInfuser: Making Video Diffusion Listen and Dance
March 18, 2025
Autori: Susung Hong, Ira Kemelmacher-Shlizerman, Brian Curless, Steven M. Seitz
cs.AI
Abstract
Presentiamo MusicInfuser, un approccio per generare video di danza di alta qualità sincronizzati con una traccia musicale specificata. Piuttosto che tentare di progettare e addestrare un nuovo modello multimodale audio-video, dimostriamo come i modelli di diffusione video esistenti possano essere adattati per allinearsi agli input musicali introducendo un meccanismo di cross-attention leggero tra musica e video e un adattatore a basso rango. A differenza dei lavori precedenti che richiedevano dati di motion capture, il nostro approccio effettua il fine-tuning esclusivamente su video di danza. MusicInfuser raggiunge una generazione video guidata dalla musica di alta qualità, preservando al contempo la flessibilità e le capacità generative dei modelli sottostanti. Introduciamo un framework di valutazione che utilizza Video-LLM per valutare molteplici dimensioni della qualità della generazione di danza. La pagina del progetto e il codice sono disponibili all'indirizzo https://susunghong.github.io/MusicInfuser.
English
We introduce MusicInfuser, an approach for generating high-quality dance
videos that are synchronized to a specified music track. Rather than attempting
to design and train a new multimodal audio-video model, we show how existing
video diffusion models can be adapted to align with musical inputs by
introducing lightweight music-video cross-attention and a low-rank adapter.
Unlike prior work requiring motion capture data, our approach fine-tunes only
on dance videos. MusicInfuser achieves high-quality music-driven video
generation while preserving the flexibility and generative capabilities of the
underlying models. We introduce an evaluation framework using Video-LLMs to
assess multiple dimensions of dance generation quality. The project page and
code are available at https://susunghong.github.io/MusicInfuser.