ChatPaper.aiChatPaper

VMAS : Génération de musique à partir de vidéos via l'alignement sémantique dans la musique en ligne.

VMAS: Video-to-Music Generation via Semantic Alignment in Web Music Videos

September 11, 2024
Auteurs: Yan-Bo Lin, Yu Tian, Linjie Yang, Gedas Bertasius, Heng Wang
cs.AI

Résumé

Nous présentons un cadre pour apprendre à générer de la musique d'ambiance à partir de vidéos en entrée. Contrairement aux travaux existants qui reposent sur des annotations musicales symboliques, limitées en quantité et en diversité, notre méthode exploite des vidéos à grande échelle accompagnées de musique d'ambiance. Cela permet à notre modèle d'apprendre à générer une musique réaliste et diversifiée. Pour atteindre cet objectif, nous développons un Transformateur vidéo-musique génératif avec un nouveau schéma d'alignement sémantique vidéo-musique. Notre modèle utilise un objectif d'apprentissage conjoint autoregressif et contrastif, qui encourage la génération de musique alignée avec le contenu vidéo de haut niveau. Nous introduisons également un nouveau schéma d'alignement vidéo-tempo pour faire correspondre les temps musicaux générés avec les mouvements de bas niveau dans la vidéo. Enfin, pour capturer les indices visuels fins dans une vidéo nécessaires à la génération réaliste de musique d'ambiance, nous introduisons une nouvelle architecture d'encodeur vidéo temporel, nous permettant de traiter efficacement des vidéos composées de nombreuses images échantillonnées de manière dense. Nous entraînons notre cadre sur notre ensemble de données DISCO-MV nouvellement constitué, composé de 2,2 millions d'échantillons vidéo-musique, ce qui est des ordres de grandeur plus grand que tout ensemble de données précédemment utilisé pour la génération de musique vidéo. Notre méthode surpasse les approches existantes sur les ensembles de données DISCO-MV et MusicCaps selon diverses mesures d'évaluation de la génération de musique, y compris l'évaluation humaine. Les résultats sont disponibles sur https://genjib.github.io/project_page/VMAs/index.html
English
We present a framework for learning to generate background music from video inputs. Unlike existing works that rely on symbolic musical annotations, which are limited in quantity and diversity, our method leverages large-scale web videos accompanied by background music. This enables our model to learn to generate realistic and diverse music. To accomplish this goal, we develop a generative video-music Transformer with a novel semantic video-music alignment scheme. Our model uses a joint autoregressive and contrastive learning objective, which encourages the generation of music aligned with high-level video content. We also introduce a novel video-beat alignment scheme to match the generated music beats with the low-level motions in the video. Lastly, to capture fine-grained visual cues in a video needed for realistic background music generation, we introduce a new temporal video encoder architecture, allowing us to efficiently process videos consisting of many densely sampled frames. We train our framework on our newly curated DISCO-MV dataset, consisting of 2.2M video-music samples, which is orders of magnitude larger than any prior datasets used for video music generation. Our method outperforms existing approaches on the DISCO-MV and MusicCaps datasets according to various music generation evaluation metrics, including human evaluation. Results are available at https://genjib.github.io/project_page/VMAs/index.html

Summary

AI-Generated Summary

PDF112November 16, 2024