VMAS: Video-zu-Musik-Generierung durch semantische Ausrichtung in Web-Musikvideos
VMAS: Video-to-Music Generation via Semantic Alignment in Web Music Videos
September 11, 2024
Autoren: Yan-Bo Lin, Yu Tian, Linjie Yang, Gedas Bertasius, Heng Wang
cs.AI
Zusammenfassung
Wir präsentieren ein Framework zum Erlernen der Generierung von Hintergrundmusik aus Videoeingaben. Im Gegensatz zu bestehenden Arbeiten, die auf symbolischen musikalischen Annotationen basieren, die in Quantität und Vielfalt begrenzt sind, nutzt unsere Methode groß angelegte Webvideos, die von Hintergrundmusik begleitet werden. Dies ermöglicht unserem Modell, realistische und vielfältige Musik zu erlernen. Um dieses Ziel zu erreichen, entwickeln wir einen generativen Video-Musik-Transformer mit einem neuartigen semantischen Video-Musik-Alignmentschema. Unser Modell verwendet ein gemeinsames autoregressives und kontrastives Lernziel, das die Generierung von Musik fördert, die mit hochrangigen Videoinhalten übereinstimmt. Wir führen auch ein neuartiges Video-Beat-Alignmentschema ein, um die generierten Musikbeats mit den niederwertigen Bewegungen im Video abzustimmen. Schließlich führen wir zur Erfassung feingranularer visueller Hinweise in einem Video, die für die realistische Hintergrundmusikgenerierung erforderlich sind, eine neue zeitliche Videoencoder-Architektur ein, die es uns ermöglicht, Videos effizient zu verarbeiten, die aus vielen dicht abgetasteten Frames bestehen. Wir trainieren unser Framework auf unserem neu kuratierten DISCO-MV-Datensatz, der aus 2,2 Mio. Video-Musik-Samples besteht, was um Größenordnungen größer ist als alle zuvor für die Video-Musik-Generierung verwendeten Datensätze. Unsere Methode übertrifft bestehende Ansätze auf den DISCO-MV- und MusicCaps-Datensätzen gemäß verschiedenen Evaluierungsmetriken für die Musikgenerierung, einschließlich menschlicher Bewertung. Die Ergebnisse sind unter https://genjib.github.io/project_page/VMAs/index.html verfügbar.
English
We present a framework for learning to generate background music from video
inputs. Unlike existing works that rely on symbolic musical annotations, which
are limited in quantity and diversity, our method leverages large-scale web
videos accompanied by background music. This enables our model to learn to
generate realistic and diverse music. To accomplish this goal, we develop a
generative video-music Transformer with a novel semantic video-music alignment
scheme. Our model uses a joint autoregressive and contrastive learning
objective, which encourages the generation of music aligned with high-level
video content. We also introduce a novel video-beat alignment scheme to match
the generated music beats with the low-level motions in the video. Lastly, to
capture fine-grained visual cues in a video needed for realistic background
music generation, we introduce a new temporal video encoder architecture,
allowing us to efficiently process videos consisting of many densely sampled
frames. We train our framework on our newly curated DISCO-MV dataset,
consisting of 2.2M video-music samples, which is orders of magnitude larger
than any prior datasets used for video music generation. Our method outperforms
existing approaches on the DISCO-MV and MusicCaps datasets according to various
music generation evaluation metrics, including human evaluation. Results are
available at https://genjib.github.io/project_page/VMAs/index.htmlSummary
AI-Generated Summary