VMAS: Generación de Música a partir de Videos mediante Alineación Semántica en Música Web
VMAS: Video-to-Music Generation via Semantic Alignment in Web Music Videos
September 11, 2024
Autores: Yan-Bo Lin, Yu Tian, Linjie Yang, Gedas Bertasius, Heng Wang
cs.AI
Resumen
Presentamos un marco para aprender a generar música de fondo a partir de entradas de video. A diferencia de los trabajos existentes que dependen de anotaciones musicales simbólicas, las cuales son limitadas en cantidad y diversidad, nuestro método aprovecha videos a gran escala acompañados de música de fondo. Esto permite que nuestro modelo aprenda a generar música realista y diversa. Para lograr este objetivo, desarrollamos un Transformador generativo video-música con un novedoso esquema de alineación semántica video-música. Nuestro modelo utiliza un objetivo de aprendizaje conjunto autoregresivo y contrastivo, que fomenta la generación de música alineada con el contenido de video de alto nivel. También introducimos un novedoso esquema de alineación video-compás para emparejar los compases de la música generada con los movimientos de bajo nivel en el video. Por último, para capturar señales visuales detalladas en un video necesarias para la generación realista de música de fondo, introducimos una nueva arquitectura de codificador de video temporal, lo que nos permite procesar eficientemente videos que consisten en muchos fotogramas muestreados densamente. Entrenamos nuestro marco en nuestro nuevo conjunto de datos DISCO-MV, que consta de 2.2 millones de muestras de video-música, que es órdenes de magnitud más grande que cualquier conjunto de datos previo utilizado para la generación de música de video. Nuestro método supera a los enfoques existentes en los conjuntos de datos DISCO-MV y MusicCaps según varios métricas de evaluación de generación de música, incluida la evaluación humana. Los resultados están disponibles en https://genjib.github.io/project_page/VMAs/index.html
English
We present a framework for learning to generate background music from video
inputs. Unlike existing works that rely on symbolic musical annotations, which
are limited in quantity and diversity, our method leverages large-scale web
videos accompanied by background music. This enables our model to learn to
generate realistic and diverse music. To accomplish this goal, we develop a
generative video-music Transformer with a novel semantic video-music alignment
scheme. Our model uses a joint autoregressive and contrastive learning
objective, which encourages the generation of music aligned with high-level
video content. We also introduce a novel video-beat alignment scheme to match
the generated music beats with the low-level motions in the video. Lastly, to
capture fine-grained visual cues in a video needed for realistic background
music generation, we introduce a new temporal video encoder architecture,
allowing us to efficiently process videos consisting of many densely sampled
frames. We train our framework on our newly curated DISCO-MV dataset,
consisting of 2.2M video-music samples, which is orders of magnitude larger
than any prior datasets used for video music generation. Our method outperforms
existing approaches on the DISCO-MV and MusicCaps datasets according to various
music generation evaluation metrics, including human evaluation. Results are
available at https://genjib.github.io/project_page/VMAs/index.htmlSummary
AI-Generated Summary