MuVi: Generazione Video-Musica con Allineamento Semantico e Sincronizzazione Ritmica
MuVi: Video-to-Music Generation with Semantic Alignment and Rhythmic Synchronization
October 16, 2024
Autori: Ruiqi Li, Siqi Zheng, Xize Cheng, Ziang Zhang, Shengpeng Ji, Zhou Zhao
cs.AI
Abstract
Generare musica che si allinea con i contenuti visivi di un video è stata un'attività impegnativa, poiché richiede una profonda comprensione della semantica visiva e implica la generazione di musica la cui melodia, ritmo e dinamiche armonizzino con le narrazioni visive. Questo articolo presenta MuVi, un nuovo framework che affronta efficacemente tali sfide per migliorare la coesione e l'esperienza immersiva dei contenuti audio-visivi. MuVi analizza i contenuti video attraverso un adattatore visivo appositamente progettato per estrarre caratteristiche rilevanti dal contesto e temporalmente pertinenti. Queste caratteristiche sono utilizzate per generare musica che non solo si adatta all'umore e al tema del video, ma anche al suo ritmo e alla sua cadenza. Introduciamo inoltre uno schema di pre-addestramento contrastivo musica-visivo per garantire la sincronizzazione, basato sulla natura periodica delle frasi musicali. Inoltre, dimostriamo che il nostro generatore di musica basato sul matching di flusso ha la capacità di apprendimento in contesto, consentendoci di controllare lo stile e il genere della musica generata. I risultati sperimentali mostrano che MuVi dimostra prestazioni superiori sia in termini di qualità audio che di sincronizzazione temporale. Gli esempi di video musicali generati sono disponibili su https://muvi-v2m.github.io.
English
Generating music that aligns with the visual content of a video has been a
challenging task, as it requires a deep understanding of visual semantics and
involves generating music whose melody, rhythm, and dynamics harmonize with the
visual narratives. This paper presents MuVi, a novel framework that effectively
addresses these challenges to enhance the cohesion and immersive experience of
audio-visual content. MuVi analyzes video content through a specially designed
visual adaptor to extract contextually and temporally relevant features. These
features are used to generate music that not only matches the video's mood and
theme but also its rhythm and pacing. We also introduce a contrastive
music-visual pre-training scheme to ensure synchronization, based on the
periodicity nature of music phrases. In addition, we demonstrate that our
flow-matching-based music generator has in-context learning ability, allowing
us to control the style and genre of the generated music. Experimental results
show that MuVi demonstrates superior performance in both audio quality and
temporal synchronization. The generated music video samples are available at
https://muvi-v2m.github.io.Summary
AI-Generated Summary