MuVi: Generación de Música a partir de Videos con Alineación Semántica y Sincronización Rítmica
MuVi: Video-to-Music Generation with Semantic Alignment and Rhythmic Synchronization
October 16, 2024
Autores: Ruiqi Li, Siqi Zheng, Xize Cheng, Ziang Zhang, Shengpeng Ji, Zhou Zhao
cs.AI
Resumen
Generar música que se alinee con el contenido visual de un video ha sido una tarea desafiante, ya que requiere una comprensión profunda de la semántica visual e implica generar música cuya melodía, ritmo y dinámica armonicen con las narrativas visuales. Este documento presenta MuVi, un marco novedoso que aborda de manera efectiva estos desafíos para mejorar la cohesión y la experiencia inmersiva del contenido audiovisual. MuVi analiza el contenido del video a través de un adaptador visual especialmente diseñado para extraer características relevantes contextual y temporalmente. Estas características se utilizan para generar música que no solo se ajusta al estado de ánimo y tema del video, sino también a su ritmo y tempo. También introducimos un esquema de pre-entrenamiento contrastivo música-visual para garantizar la sincronización, basado en la naturaleza periódica de las frases musicales. Además, demostramos que nuestro generador de música basado en el emparejamiento de flujos tiene la capacidad de aprendizaje en contexto, lo que nos permite controlar el estilo y género de la música generada. Los resultados experimentales muestran que MuVi demuestra un rendimiento superior tanto en calidad de audio como en sincronización temporal. Las muestras de videos musicales generados están disponibles en https://muvi-v2m.github.io.
English
Generating music that aligns with the visual content of a video has been a
challenging task, as it requires a deep understanding of visual semantics and
involves generating music whose melody, rhythm, and dynamics harmonize with the
visual narratives. This paper presents MuVi, a novel framework that effectively
addresses these challenges to enhance the cohesion and immersive experience of
audio-visual content. MuVi analyzes video content through a specially designed
visual adaptor to extract contextually and temporally relevant features. These
features are used to generate music that not only matches the video's mood and
theme but also its rhythm and pacing. We also introduce a contrastive
music-visual pre-training scheme to ensure synchronization, based on the
periodicity nature of music phrases. In addition, we demonstrate that our
flow-matching-based music generator has in-context learning ability, allowing
us to control the style and genre of the generated music. Experimental results
show that MuVi demonstrates superior performance in both audio quality and
temporal synchronization. The generated music video samples are available at
https://muvi-v2m.github.io.Summary
AI-Generated Summary