MusicInfuser: Fazendo a Difusão de Vídeo Ouvir e Dançar

Resumo

Apresentamos o MusicInfuser, uma abordagem para gerar vídeos de dança de alta qualidade que estão sincronizados com uma faixa musical especificada. Em vez de tentar projetar e treinar um novo modelo multimodal de áudio-vídeo, mostramos como os modelos existentes de difusão de vídeo podem ser adaptados para se alinhar com entradas musicais, introduzindo uma atenção cruzada leve entre música e vídeo e um adaptador de baixo rank. Diferente de trabalhos anteriores que exigem dados de captura de movimento, nossa abordagem realiza ajustes finos apenas em vídeos de dança. O MusicInfuser alcança uma geração de vídeo impulsionada por música de alta qualidade, preservando a flexibilidade e as capacidades generativas dos modelos subjacentes. Introduzimos um framework de avaliação utilizando Video-LLMs para avaliar múltiplas dimensões da qualidade da geração de dança. A página do projeto e o código estão disponíveis em https://susunghong.github.io/MusicInfuser.

English

We introduce MusicInfuser, an approach for generating high-quality dance videos that are synchronized to a specified music track. Rather than attempting to design and train a new multimodal audio-video model, we show how existing video diffusion models can be adapted to align with musical inputs by introducing lightweight music-video cross-attention and a low-rank adapter. Unlike prior work requiring motion capture data, our approach fine-tunes only on dance videos. MusicInfuser achieves high-quality music-driven video generation while preserving the flexibility and generative capabilities of the underlying models. We introduce an evaluation framework using Video-LLMs to assess multiple dimensions of dance generation quality. The project page and code are available at https://susunghong.github.io/MusicInfuser.

MusicInfuser: Fazendo a Difusão de Vídeo Ouvir e Dançar

MusicInfuser: Making Video Diffusion Listen and Dance

Resumo

Support