MuVi: Video-zu-Musik-Generierung mit semantischer Ausrichtung und rhythmischer Synchronisation
MuVi: Video-to-Music Generation with Semantic Alignment and Rhythmic Synchronization
October 16, 2024
Autoren: Ruiqi Li, Siqi Zheng, Xize Cheng, Ziang Zhang, Shengpeng Ji, Zhou Zhao
cs.AI
Zusammenfassung
Die Generierung von Musik, die mit dem visuellen Inhalt eines Videos übereinstimmt, war eine anspruchsvolle Aufgabe, da sie ein tiefes Verständnis der visuellen Semantik erfordert und die Erzeugung von Musik beinhaltet, deren Melodie, Rhythmus und Dynamik mit den visuellen Erzählungen harmonieren. Dieses Papier stellt MuVi vor, ein neuartiges Framework, das diese Herausforderungen effektiv angeht, um die Kohäsion und immersive Erfahrung von audiovisuellen Inhalten zu verbessern. MuVi analysiert den Videoinhalt durch einen speziell entwickelten visuellen Adapter, um kontextuell und zeitlich relevante Merkmale zu extrahieren. Diese Merkmale werden verwendet, um Musik zu generieren, die nicht nur zur Stimmung und zum Thema des Videos passt, sondern auch zu seinem Rhythmus und Tempo. Wir führen auch ein kontrastives Musik-Visual-Pre-Training-Schema ein, um die Synchronisation sicherzustellen, basierend auf der periodischen Natur von Musikphrasen. Darüber hinaus zeigen wir, dass unser auf Flussabgleich basierender Musikgenerator über eine kontextbezogene Lernfähigkeit verfügt, die es uns ermöglicht, den Stil und das Genre der generierten Musik zu kontrollieren. Experimentelle Ergebnisse zeigen, dass MuVi eine überlegene Leistung sowohl in der Audioqualität als auch in der zeitlichen Synchronisation aufweist. Die generierten Musikvideo-Beispiele sind unter https://muvi-v2m.github.io verfügbar.
English
Generating music that aligns with the visual content of a video has been a
challenging task, as it requires a deep understanding of visual semantics and
involves generating music whose melody, rhythm, and dynamics harmonize with the
visual narratives. This paper presents MuVi, a novel framework that effectively
addresses these challenges to enhance the cohesion and immersive experience of
audio-visual content. MuVi analyzes video content through a specially designed
visual adaptor to extract contextually and temporally relevant features. These
features are used to generate music that not only matches the video's mood and
theme but also its rhythm and pacing. We also introduce a contrastive
music-visual pre-training scheme to ensure synchronization, based on the
periodicity nature of music phrases. In addition, we demonstrate that our
flow-matching-based music generator has in-context learning ability, allowing
us to control the style and genre of the generated music. Experimental results
show that MuVi demonstrates superior performance in both audio quality and
temporal synchronization. The generated music video samples are available at
https://muvi-v2m.github.io.Summary
AI-Generated Summary