VMAS: Генерация музыки по видео с помощью семантического выравнивания в веб-музыке.
VMAS: Video-to-Music Generation via Semantic Alignment in Web Music Videos
September 11, 2024
Авторы: Yan-Bo Lin, Yu Tian, Linjie Yang, Gedas Bertasius, Heng Wang
cs.AI
Аннотация
Мы представляем фреймворк для обучения генерации фоновой музыки из видео. В отличие от существующих работ, основанных на символьных музыкальных аннотациях, которые ограничены по количеству и разнообразию, наш метод использует масштабные видеоролики с фоновой музыкой. Это позволяет нашей модели научиться генерировать реалистичную и разнообразную музыку. Для достижения этой цели мы разработали генеративный видео-музыкальный трансформер с новой схемой семантического выравнивания видео и музыки. Наша модель использует совместный авторегрессионный и контрастивный метод обучения, который способствует генерации музыки, соответствующей высокоуровневому содержанию видео. Мы также представляем новую схему выравнивания видео и ритма для сопоставления сгенерированных музыкальных ритмов с низкоуровневыми движениями на видео. Наконец, чтобы уловить мелкие визуальные подсказки в видео, необходимые для реалистичной генерации фоновой музыки, мы представляем новую архитектуру временного видео-кодера, позволяющую эффективно обрабатывать видеоролики, состоящие из множества плотно выбранных кадров. Мы обучаем наш фреймворк на нашем новом наборе данных DISCO-MV, состоящем из 2,2 млн видео-музыкальных образцов, который в разы превосходит по размеру любые предыдущие наборы данных, использованные для генерации видео-музыки. Наш метод превосходит существующие подходы на наборах данных DISCO-MV и MusicCaps согласно различным метрикам оценки генерации музыки, включая оценку человека. Результаты доступны по ссылке https://genjib.github.io/project_page/VMAs/index.html
English
We present a framework for learning to generate background music from video
inputs. Unlike existing works that rely on symbolic musical annotations, which
are limited in quantity and diversity, our method leverages large-scale web
videos accompanied by background music. This enables our model to learn to
generate realistic and diverse music. To accomplish this goal, we develop a
generative video-music Transformer with a novel semantic video-music alignment
scheme. Our model uses a joint autoregressive and contrastive learning
objective, which encourages the generation of music aligned with high-level
video content. We also introduce a novel video-beat alignment scheme to match
the generated music beats with the low-level motions in the video. Lastly, to
capture fine-grained visual cues in a video needed for realistic background
music generation, we introduce a new temporal video encoder architecture,
allowing us to efficiently process videos consisting of many densely sampled
frames. We train our framework on our newly curated DISCO-MV dataset,
consisting of 2.2M video-music samples, which is orders of magnitude larger
than any prior datasets used for video music generation. Our method outperforms
existing approaches on the DISCO-MV and MusicCaps datasets according to various
music generation evaluation metrics, including human evaluation. Results are
available at https://genjib.github.io/project_page/VMAs/index.htmlSummary
AI-Generated Summary