MusicInfuser: Fazendo a Difusão de Vídeo Ouvir e Dançar
MusicInfuser: Making Video Diffusion Listen and Dance
March 18, 2025
Autores: Susung Hong, Ira Kemelmacher-Shlizerman, Brian Curless, Steven M. Seitz
cs.AI
Resumo
Apresentamos o MusicInfuser, uma abordagem para gerar vídeos de dança de alta qualidade que estão sincronizados com uma faixa musical especificada. Em vez de tentar projetar e treinar um novo modelo multimodal de áudio-vídeo, mostramos como os modelos existentes de difusão de vídeo podem ser adaptados para se alinhar com entradas musicais, introduzindo uma atenção cruzada leve entre música e vídeo e um adaptador de baixo rank. Diferente de trabalhos anteriores que exigem dados de captura de movimento, nossa abordagem realiza ajustes finos apenas em vídeos de dança. O MusicInfuser alcança uma geração de vídeo impulsionada por música de alta qualidade, preservando a flexibilidade e as capacidades generativas dos modelos subjacentes. Introduzimos um framework de avaliação utilizando Video-LLMs para avaliar múltiplas dimensões da qualidade da geração de dança. A página do projeto e o código estão disponíveis em https://susunghong.github.io/MusicInfuser.
English
We introduce MusicInfuser, an approach for generating high-quality dance
videos that are synchronized to a specified music track. Rather than attempting
to design and train a new multimodal audio-video model, we show how existing
video diffusion models can be adapted to align with musical inputs by
introducing lightweight music-video cross-attention and a low-rank adapter.
Unlike prior work requiring motion capture data, our approach fine-tunes only
on dance videos. MusicInfuser achieves high-quality music-driven video
generation while preserving the flexibility and generative capabilities of the
underlying models. We introduce an evaluation framework using Video-LLMs to
assess multiple dimensions of dance generation quality. The project page and
code are available at https://susunghong.github.io/MusicInfuser.Summary
AI-Generated Summary