MusicInfuser: Заставляя видеодиффузию слушать и танцевать
MusicInfuser: Making Video Diffusion Listen and Dance
March 18, 2025
Авторы: Susung Hong, Ira Kemelmacher-Shlizerman, Brian Curless, Steven M. Seitz
cs.AI
Аннотация
Мы представляем MusicInfuser — подход для создания высококачественных танцевальных видео, синхронизированных с заданной музыкальной композицией. Вместо разработки и обучения новой мультимодальной аудио-видео модели мы демонстрируем, как существующие модели диффузии видео можно адаптировать для согласования с музыкальными входными данными, вводя легковесное кросс-внимание между музыкой и видео, а также низкоранговый адаптер. В отличие от предыдущих работ, требующих данных о захвате движений, наш подход выполняет тонкую настройку исключительно на танцевальных видео. MusicInfuser обеспечивает высококачественную генерацию видео, управляемую музыкой, сохраняя при этом гибкость и генеративные возможности базовых моделей. Мы предлагаем оценочную структуру с использованием Video-LLM для анализа нескольких аспектов качества генерации танцев. Страница проекта и код доступны по адресу https://susunghong.github.io/MusicInfuser.
English
We introduce MusicInfuser, an approach for generating high-quality dance
videos that are synchronized to a specified music track. Rather than attempting
to design and train a new multimodal audio-video model, we show how existing
video diffusion models can be adapted to align with musical inputs by
introducing lightweight music-video cross-attention and a low-rank adapter.
Unlike prior work requiring motion capture data, our approach fine-tunes only
on dance videos. MusicInfuser achieves high-quality music-driven video
generation while preserving the flexibility and generative capabilities of the
underlying models. We introduce an evaluation framework using Video-LLMs to
assess multiple dimensions of dance generation quality. The project page and
code are available at https://susunghong.github.io/MusicInfuser.Summary
AI-Generated Summary