MuVi : Génération de musique à partir de vidéos avec alignement sémantique et synchronisation rythmique
MuVi: Video-to-Music Generation with Semantic Alignment and Rhythmic Synchronization
October 16, 2024
Auteurs: Ruiqi Li, Siqi Zheng, Xize Cheng, Ziang Zhang, Shengpeng Ji, Zhou Zhao
cs.AI
Résumé
Générer de la musique qui s'aligne avec le contenu visuel d'une vidéo a été une tâche difficile, car cela nécessite une compréhension approfondie de la sémantique visuelle et implique de générer de la musique dont la mélodie, le rythme et la dynamique s'harmonisent avec les récits visuels. Cet article présente MuVi, un nouveau cadre qui aborde efficacement ces défis pour améliorer la cohésion et l'expérience immersive du contenu audiovisuel. MuVi analyse le contenu vidéo à travers un adaptateur visuel spécialement conçu pour extraire des caractéristiques contextuellement et temporellement pertinentes. Ces caractéristiques sont utilisées pour générer de la musique qui correspond non seulement à l'humeur et au thème de la vidéo, mais aussi à son rythme et à son tempo. Nous introduisons également un schéma d'entraînement préalable contrastif musique-visuel pour assurer la synchronisation, basé sur la nature périodique des phrases musicales. De plus, nous démontrons que notre générateur de musique basé sur l'ajustement de flux a une capacité d'apprentissage en contexte, nous permettant de contrôler le style et le genre de la musique générée. Les résultats expérimentaux montrent que MuVi présente des performances supérieures tant en termes de qualité audio que de synchronisation temporelle. Les échantillons de vidéos musicales générées sont disponibles sur https://muvi-v2m.github.io.
English
Generating music that aligns with the visual content of a video has been a
challenging task, as it requires a deep understanding of visual semantics and
involves generating music whose melody, rhythm, and dynamics harmonize with the
visual narratives. This paper presents MuVi, a novel framework that effectively
addresses these challenges to enhance the cohesion and immersive experience of
audio-visual content. MuVi analyzes video content through a specially designed
visual adaptor to extract contextually and temporally relevant features. These
features are used to generate music that not only matches the video's mood and
theme but also its rhythm and pacing. We also introduce a contrastive
music-visual pre-training scheme to ensure synchronization, based on the
periodicity nature of music phrases. In addition, we demonstrate that our
flow-matching-based music generator has in-context learning ability, allowing
us to control the style and genre of the generated music. Experimental results
show that MuVi demonstrates superior performance in both audio quality and
temporal synchronization. The generated music video samples are available at
https://muvi-v2m.github.io.Summary
AI-Generated Summary