ChatPaper.aiChatPaper

VMAS: 웹 음악 비디오에서 의미 정렬을 통한 비디오-음악 생성

VMAS: Video-to-Music Generation via Semantic Alignment in Web Music Videos

September 11, 2024
저자: Yan-Bo Lin, Yu Tian, Linjie Yang, Gedas Bertasius, Heng Wang
cs.AI

초록

우리는 비디오 입력으로부터 배경 음악을 생성하는 방법에 대한 프레임워크를 제시합니다. 기존의 심볼 음악 주석에 의존하는 기존 작업과는 달리, 우리의 방법은 대규모 웹 비디오와 함께 제공되는 배경 음악을 활용합니다. 이를 통해 우리의 모델은 현실적이고 다양한 음악을 생성하는 방법을 학습할 수 있습니다. 이 목표를 달성하기 위해 우리는 새로운 의미론적 비디오-음악 정렬 체계를 갖춘 생성 비디오-음악 트랜스포머를 개발합니다. 우리의 모델은 결합 자기 회귀 및 대조 학습 목표를 사용하여, 고수준 비디오 콘텐츠와 일치하는 음악을 생성하도록 장려합니다. 또한 생성된 음악 비트를 비디오의 저수준 동작과 일치시키기 위한 새로운 비디오-비트 정렬 체계를 소개합니다. 마지막으로, 현실적인 배경 음악 생성에 필요한 비디오의 세밀한 시각적 단서를 포착하기 위해 새로운 시계열 비디오 인코더 아키텍처를 도입하여, 많은 조밀하게 샘플링된 프레임으로 구성된 비디오를 효율적으로 처리할 수 있습니다. 우리는 2.2백만 개의 비디오-음악 샘플로 구성된 새롭게 정리된 DISCO-MV 데이터셋에서 우리의 프레임워크를 훈련시킵니다. 이 데이터셋은 비디오 음악 생성에 사용된 이전 데이터셋보다 수십 배 큽니다. 우리의 방법은 다양한 음악 생성 평가 메트릭을 기준으로 DISCO-MV 및 MusicCaps 데이터셋에서 기존 방법을 능가하며, 인간 평가를 포함한 결과가 https://genjib.github.io/project_page/VMAs/index.html 에서 확인할 수 있습니다.
English
We present a framework for learning to generate background music from video inputs. Unlike existing works that rely on symbolic musical annotations, which are limited in quantity and diversity, our method leverages large-scale web videos accompanied by background music. This enables our model to learn to generate realistic and diverse music. To accomplish this goal, we develop a generative video-music Transformer with a novel semantic video-music alignment scheme. Our model uses a joint autoregressive and contrastive learning objective, which encourages the generation of music aligned with high-level video content. We also introduce a novel video-beat alignment scheme to match the generated music beats with the low-level motions in the video. Lastly, to capture fine-grained visual cues in a video needed for realistic background music generation, we introduce a new temporal video encoder architecture, allowing us to efficiently process videos consisting of many densely sampled frames. We train our framework on our newly curated DISCO-MV dataset, consisting of 2.2M video-music samples, which is orders of magnitude larger than any prior datasets used for video music generation. Our method outperforms existing approaches on the DISCO-MV and MusicCaps datasets according to various music generation evaluation metrics, including human evaluation. Results are available at https://genjib.github.io/project_page/VMAs/index.html
PDF112November 16, 2024