VMAS: Video-naar-Muziek Generatie via Semantische Afstemming in Webmuziekvideo's
VMAS: Video-to-Music Generation via Semantic Alignment in Web Music Videos
September 11, 2024
Auteurs: Yan-Bo Lin, Yu Tian, Linjie Yang, Gedas Bertasius, Heng Wang
cs.AI
Samenvatting
We presenteren een framework voor het leren genereren van achtergrondmuziek vanuit video-invoer. In tegenstelling tot bestaande werken die vertrouwen op symbolische muzikale annotaties, die beperkt zijn in hoeveelheid en diversiteit, maakt onze methode gebruik van grootschalige webvideo's vergezeld van achtergrondmuziek. Dit stelt ons model in staat om te leren realistische en diverse muziek te genereren. Om dit doel te bereiken, ontwikkelen we een generatieve video-muziek Transformer met een nieuw semantisch video-muziek aligneringsschema. Ons model maakt gebruik van een gezamenlijk autoregressief en contrastief leerdoel, dat de generatie van muziek die is afgestemd op hoog-niveau video-inhoud aanmoedigt. We introduceren ook een nieuw video-beat aligneringsschema om de gegenereerde muziekbeats af te stemmen op de laag-niveau bewegingen in de video. Ten slotte, om fijnmazige visuele aanwijzingen in een video vast te leggen die nodig zijn voor realistische achtergrondmuziekgeneratie, introduceren we een nieuwe temporele video-encoderarchitectuur, waardoor we efficiënt video's kunnen verwerken die bestaan uit veel dicht op elkaar gesamplede frames. We trainen ons framework op onze nieuw samengestelde DISCO-MV dataset, bestaande uit 2,2 miljoen video-muziekvoorbeelden, die vele malen groter is dan alle eerdere datasets die zijn gebruikt voor video-muziekgeneratie. Onze methode presteert beter dan bestaande benaderingen op de DISCO-MV en MusicCaps datasets volgens verschillende muziekgeneratie-evaluatiemetrics, inclusief menselijke evaluatie. Resultaten zijn beschikbaar op https://genjib.github.io/project_page/VMAs/index.html
English
We present a framework for learning to generate background music from video
inputs. Unlike existing works that rely on symbolic musical annotations, which
are limited in quantity and diversity, our method leverages large-scale web
videos accompanied by background music. This enables our model to learn to
generate realistic and diverse music. To accomplish this goal, we develop a
generative video-music Transformer with a novel semantic video-music alignment
scheme. Our model uses a joint autoregressive and contrastive learning
objective, which encourages the generation of music aligned with high-level
video content. We also introduce a novel video-beat alignment scheme to match
the generated music beats with the low-level motions in the video. Lastly, to
capture fine-grained visual cues in a video needed for realistic background
music generation, we introduce a new temporal video encoder architecture,
allowing us to efficiently process videos consisting of many densely sampled
frames. We train our framework on our newly curated DISCO-MV dataset,
consisting of 2.2M video-music samples, which is orders of magnitude larger
than any prior datasets used for video music generation. Our method outperforms
existing approaches on the DISCO-MV and MusicCaps datasets according to various
music generation evaluation metrics, including human evaluation. Results are
available at https://genjib.github.io/project_page/VMAs/index.htmlSummary
AI-Generated Summary