ChatPaper.aiChatPaper

MuVi: Geração de Música a partir de Vídeo com Alinhamento Semântico e Sincronização Rítmica

MuVi: Video-to-Music Generation with Semantic Alignment and Rhythmic Synchronization

October 16, 2024
Autores: Ruiqi Li, Siqi Zheng, Xize Cheng, Ziang Zhang, Shengpeng Ji, Zhou Zhao
cs.AI

Resumo

Gerar música que esteja alinhada com o conteúdo visual de um vídeo tem sido uma tarefa desafiadora, uma vez que requer um profundo entendimento da semântica visual e envolve gerar música cuja melodia, ritmo e dinâmica harmonizem com as narrativas visuais. Este artigo apresenta o MuVi, um novo framework que aborda efetivamente esses desafios para aprimorar a coesão e a experiência imersiva de conteúdos audiovisuais. O MuVi analisa o conteúdo do vídeo por meio de um adaptador visual especialmente projetado para extrair características relevantes contextualmente e temporalmente. Essas características são utilizadas para gerar música que não apenas combina com o humor e tema do vídeo, mas também com seu ritmo e andamento. Também introduzimos um esquema de pré-treinamento musical-visual contrastivo para garantir a sincronização, com base na natureza periódica das frases musicais. Além disso, demonstramos que nosso gerador de música baseado em correspondência de fluxo possui capacidade de aprendizado contextual, permitindo-nos controlar o estilo e gênero da música gerada. Resultados experimentais mostram que o MuVi demonstra desempenho superior tanto em qualidade de áudio quanto em sincronização temporal. As amostras de vídeos musicais gerados estão disponíveis em https://muvi-v2m.github.io.
English
Generating music that aligns with the visual content of a video has been a challenging task, as it requires a deep understanding of visual semantics and involves generating music whose melody, rhythm, and dynamics harmonize with the visual narratives. This paper presents MuVi, a novel framework that effectively addresses these challenges to enhance the cohesion and immersive experience of audio-visual content. MuVi analyzes video content through a specially designed visual adaptor to extract contextually and temporally relevant features. These features are used to generate music that not only matches the video's mood and theme but also its rhythm and pacing. We also introduce a contrastive music-visual pre-training scheme to ensure synchronization, based on the periodicity nature of music phrases. In addition, we demonstrate that our flow-matching-based music generator has in-context learning ability, allowing us to control the style and genre of the generated music. Experimental results show that MuVi demonstrates superior performance in both audio quality and temporal synchronization. The generated music video samples are available at https://muvi-v2m.github.io.

Summary

AI-Generated Summary

PDF92November 16, 2024