MusicInfuser: Video-diffusie laten luisteren en dansen

Samenvatting

We introduceren MusicInfuser, een aanpak voor het genereren van hoogwaardige dansvideo's die gesynchroniseerd zijn met een opgegeven muzieknummer. In plaats van te proberen een nieuw multimodaal audio-videomodel te ontwerpen en te trainen, laten we zien hoe bestaande videodiffusiemodellen kunnen worden aangepast om af te stemmen op muzikale invoer door het introduceren van lichtgewicht muziek-video cross-attentie en een low-rank adapter. In tegenstelling tot eerder werk dat bewegingscaptuurdata vereist, fine-tunt onze aanpak alleen op dansvideo's. MusicInfuser bereikt hoogwaardige muziekgedreven videogeneratie terwijl de flexibiliteit en generatieve mogelijkheden van de onderliggende modellen behouden blijven. We introduceren een evaluatieraamwerk met behulp van Video-LLM's om meerdere dimensies van de kwaliteit van dansgeneratie te beoordelen. De projectpagina en code zijn beschikbaar op https://susunghong.github.io/MusicInfuser.

English

We introduce MusicInfuser, an approach for generating high-quality dance videos that are synchronized to a specified music track. Rather than attempting to design and train a new multimodal audio-video model, we show how existing video diffusion models can be adapted to align with musical inputs by introducing lightweight music-video cross-attention and a low-rank adapter. Unlike prior work requiring motion capture data, our approach fine-tunes only on dance videos. MusicInfuser achieves high-quality music-driven video generation while preserving the flexibility and generative capabilities of the underlying models. We introduce an evaluation framework using Video-LLMs to assess multiple dimensions of dance generation quality. The project page and code are available at https://susunghong.github.io/MusicInfuser.

MusicInfuser: Video-diffusie laten luisteren en dansen

MusicInfuser: Making Video Diffusion Listen and Dance

Samenvatting

Support