VMAS: Generazione Video-Musica tramite Allineamento Semantico nella Musica Web
VMAS: Video-to-Music Generation via Semantic Alignment in Web Music Videos
September 11, 2024
Autori: Yan-Bo Lin, Yu Tian, Linjie Yang, Gedas Bertasius, Heng Wang
cs.AI
Abstract
Presentiamo un framework per apprendere a generare musica di sottofondo da video in ingresso. A differenza dei lavori esistenti che si basano su annotazioni musicali simboliche, limitate in quantità e diversità, il nostro metodo sfrutta video su larga scala accompagnati da musica di sottofondo. Ciò consente al nostro modello di imparare a generare musica realistica e diversificata. Per raggiungere questo obiettivo, sviluppiamo un Transformer generativo video-musica con un nuovo schema di allineamento semantico video-musica. Il nostro modello utilizza un obiettivo di apprendimento congiunto autoregressivo e contrastivo, che incoraggia la generazione di musica allineata con il contenuto video di alto livello. Introduciamo inoltre un nuovo schema di allineamento video-beat per abbinare i beat musicali generati con i movimenti a basso livello nel video. Infine, per catturare segnali visivi dettagliati in un video necessari per la generazione realistica di musica di sottofondo, introduciamo una nuova architettura di codifica video temporale, che ci consente di elaborare efficacemente video composti da molti frame campionati in modo denso. Addestriamo il nostro framework sul nostro nuovo dataset DISCO-MV, composto da 2,2M campioni video-musica, che è di ordini di grandezza superiore rispetto a qualsiasi dataset precedente utilizzato per la generazione di musica video. Il nostro metodo supera gli approcci esistenti sui dataset DISCO-MV e MusicCaps secondo varie metriche di valutazione della generazione musicale, inclusa la valutazione umana. I risultati sono disponibili su https://genjib.github.io/project_page/VMAs/index.html
English
We present a framework for learning to generate background music from video
inputs. Unlike existing works that rely on symbolic musical annotations, which
are limited in quantity and diversity, our method leverages large-scale web
videos accompanied by background music. This enables our model to learn to
generate realistic and diverse music. To accomplish this goal, we develop a
generative video-music Transformer with a novel semantic video-music alignment
scheme. Our model uses a joint autoregressive and contrastive learning
objective, which encourages the generation of music aligned with high-level
video content. We also introduce a novel video-beat alignment scheme to match
the generated music beats with the low-level motions in the video. Lastly, to
capture fine-grained visual cues in a video needed for realistic background
music generation, we introduce a new temporal video encoder architecture,
allowing us to efficiently process videos consisting of many densely sampled
frames. We train our framework on our newly curated DISCO-MV dataset,
consisting of 2.2M video-music samples, which is orders of magnitude larger
than any prior datasets used for video music generation. Our method outperforms
existing approaches on the DISCO-MV and MusicCaps datasets according to various
music generation evaluation metrics, including human evaluation. Results are
available at https://genjib.github.io/project_page/VMAs/index.htmlSummary
AI-Generated Summary