MusicInfuser: Haciendo que la difusión de video escuche y baile
MusicInfuser: Making Video Diffusion Listen and Dance
March 18, 2025
Autores: Susung Hong, Ira Kemelmacher-Shlizerman, Brian Curless, Steven M. Seitz
cs.AI
Resumen
Presentamos MusicInfuser, un enfoque para generar videos de baile de alta calidad que están sincronizados con una pista musical específica. En lugar de intentar diseñar y entrenar un nuevo modelo multimodal de audio-video, demostramos cómo los modelos existentes de difusión de video pueden adaptarse para alinearse con entradas musicales mediante la introducción de una atención cruzada ligera entre música y video y un adaptador de bajo rango. A diferencia de trabajos previos que requieren datos de captura de movimiento, nuestro enfoque se ajusta únicamente en videos de baile. MusicInfuser logra una generación de video impulsada por música de alta calidad mientras preserva la flexibilidad y las capacidades generativas de los modelos subyacentes. Introducimos un marco de evaluación utilizando Video-LLMs para evaluar múltiples dimensiones de la calidad en la generación de baile. La página del proyecto y el código están disponibles en https://susunghong.github.io/MusicInfuser.
English
We introduce MusicInfuser, an approach for generating high-quality dance
videos that are synchronized to a specified music track. Rather than attempting
to design and train a new multimodal audio-video model, we show how existing
video diffusion models can be adapted to align with musical inputs by
introducing lightweight music-video cross-attention and a low-rank adapter.
Unlike prior work requiring motion capture data, our approach fine-tunes only
on dance videos. MusicInfuser achieves high-quality music-driven video
generation while preserving the flexibility and generative capabilities of the
underlying models. We introduce an evaluation framework using Video-LLMs to
assess multiple dimensions of dance generation quality. The project page and
code are available at https://susunghong.github.io/MusicInfuser.Summary
AI-Generated Summary