ChatPaper.aiChatPaper

MuVi: Generazione Video-Musica con Allineamento Semantico e Sincronizzazione Ritmica

MuVi: Video-to-Music Generation with Semantic Alignment and Rhythmic Synchronization

October 16, 2024
Autori: Ruiqi Li, Siqi Zheng, Xize Cheng, Ziang Zhang, Shengpeng Ji, Zhou Zhao
cs.AI

Abstract

Generare musica che si allinea con i contenuti visivi di un video è stata un'attività impegnativa, poiché richiede una profonda comprensione della semantica visiva e implica la generazione di musica la cui melodia, ritmo e dinamiche armonizzino con le narrazioni visive. Questo articolo presenta MuVi, un nuovo framework che affronta efficacemente tali sfide per migliorare la coesione e l'esperienza immersiva dei contenuti audio-visivi. MuVi analizza i contenuti video attraverso un adattatore visivo appositamente progettato per estrarre caratteristiche rilevanti dal contesto e temporalmente pertinenti. Queste caratteristiche sono utilizzate per generare musica che non solo si adatta all'umore e al tema del video, ma anche al suo ritmo e alla sua cadenza. Introduciamo inoltre uno schema di pre-addestramento contrastivo musica-visivo per garantire la sincronizzazione, basato sulla natura periodica delle frasi musicali. Inoltre, dimostriamo che il nostro generatore di musica basato sul matching di flusso ha la capacità di apprendimento in contesto, consentendoci di controllare lo stile e il genere della musica generata. I risultati sperimentali mostrano che MuVi dimostra prestazioni superiori sia in termini di qualità audio che di sincronizzazione temporale. Gli esempi di video musicali generati sono disponibili su https://muvi-v2m.github.io.
English
Generating music that aligns with the visual content of a video has been a challenging task, as it requires a deep understanding of visual semantics and involves generating music whose melody, rhythm, and dynamics harmonize with the visual narratives. This paper presents MuVi, a novel framework that effectively addresses these challenges to enhance the cohesion and immersive experience of audio-visual content. MuVi analyzes video content through a specially designed visual adaptor to extract contextually and temporally relevant features. These features are used to generate music that not only matches the video's mood and theme but also its rhythm and pacing. We also introduce a contrastive music-visual pre-training scheme to ensure synchronization, based on the periodicity nature of music phrases. In addition, we demonstrate that our flow-matching-based music generator has in-context learning ability, allowing us to control the style and genre of the generated music. Experimental results show that MuVi demonstrates superior performance in both audio quality and temporal synchronization. The generated music video samples are available at https://muvi-v2m.github.io.

Summary

AI-Generated Summary

PDF92November 16, 2024