MusicInfuser: Haciendo que la difusión de video escuche y baile

Resumen

Presentamos MusicInfuser, un enfoque para generar videos de baile de alta calidad que están sincronizados con una pista musical específica. En lugar de intentar diseñar y entrenar un nuevo modelo multimodal de audio-video, demostramos cómo los modelos existentes de difusión de video pueden adaptarse para alinearse con entradas musicales mediante la introducción de una atención cruzada ligera entre música y video y un adaptador de bajo rango. A diferencia de trabajos previos que requieren datos de captura de movimiento, nuestro enfoque se ajusta únicamente en videos de baile. MusicInfuser logra una generación de video impulsada por música de alta calidad mientras preserva la flexibilidad y las capacidades generativas de los modelos subyacentes. Introducimos un marco de evaluación utilizando Video-LLMs para evaluar múltiples dimensiones de la calidad en la generación de baile. La página del proyecto y el código están disponibles en https://susunghong.github.io/MusicInfuser.

English

We introduce MusicInfuser, an approach for generating high-quality dance videos that are synchronized to a specified music track. Rather than attempting to design and train a new multimodal audio-video model, we show how existing video diffusion models can be adapted to align with musical inputs by introducing lightweight music-video cross-attention and a low-rank adapter. Unlike prior work requiring motion capture data, our approach fine-tunes only on dance videos. MusicInfuser achieves high-quality music-driven video generation while preserving the flexibility and generative capabilities of the underlying models. We introduce an evaluation framework using Video-LLMs to assess multiple dimensions of dance generation quality. The project page and code are available at https://susunghong.github.io/MusicInfuser.