ChatPaper.aiChatPaper

MusicInfuser: 비디오 확산 모델이 음악을 듣고 춤추게 만들기

MusicInfuser: Making Video Diffusion Listen and Dance

March 18, 2025
저자: Susung Hong, Ira Kemelmacher-Shlizerman, Brian Curless, Steven M. Seitz
cs.AI

초록

우리는 특정 음악 트랙과 동기화된 고품질 댄스 비디오를 생성하기 위한 접근법인 MusicInfuser를 소개합니다. 새로운 멀티모달 오디오-비디오 모델을 설계하고 훈련시키려는 시도 대신, 기존의 비디오 확산 모델이 경량의 음악-비디오 교차 주의 메커니즘과 저랭크 어댑터를 도입함으로써 음악 입력과 정렬되도록 적응할 수 있음을 보여줍니다. 모션 캡처 데이터를 요구하는 기존 연구와 달리, 우리의 접근법은 댄스 비디오에 대해서만 미세 조정을 수행합니다. MusicInfuser는 기본 모델의 유연성과 생성 능력을 유지하면서도 고품질의 음악 기반 비디오 생성을 달성합니다. 우리는 Video-LLMs를 사용하여 댄스 생성 품질의 여러 차원을 평가하기 위한 평가 프레임워크를 도입합니다. 프로젝트 페이지와 코드는 https://susunghong.github.io/MusicInfuser에서 확인할 수 있습니다.
English
We introduce MusicInfuser, an approach for generating high-quality dance videos that are synchronized to a specified music track. Rather than attempting to design and train a new multimodal audio-video model, we show how existing video diffusion models can be adapted to align with musical inputs by introducing lightweight music-video cross-attention and a low-rank adapter. Unlike prior work requiring motion capture data, our approach fine-tunes only on dance videos. MusicInfuser achieves high-quality music-driven video generation while preserving the flexibility and generative capabilities of the underlying models. We introduce an evaluation framework using Video-LLMs to assess multiple dimensions of dance generation quality. The project page and code are available at https://susunghong.github.io/MusicInfuser.

Summary

AI-Generated Summary

PDF112March 20, 2025