VMAS: Geração de Música a partir de Vídeo via Alinhamento Semântico em Músicas da Web
VMAS: Video-to-Music Generation via Semantic Alignment in Web Music Videos
September 11, 2024
Autores: Yan-Bo Lin, Yu Tian, Linjie Yang, Gedas Bertasius, Heng Wang
cs.AI
Resumo
Apresentamos um framework para aprender a gerar música de fundo a partir de entradas de vídeo. Ao contrário de trabalhos existentes que dependem de anotações musicais simbólicas, as quais são limitadas em quantidade e diversidade, nosso método utiliza vídeos em larga escala acompanhados por música de fundo. Isso permite que nosso modelo aprenda a gerar música realista e diversificada. Para atingir esse objetivo, desenvolvemos um Transformer generativo vídeo-música com um novo esquema de alinhamento semântico vídeo-música. Nosso modelo utiliza um objetivo de aprendizagem autoregressivo e contrastivo conjunto, o qual incentiva a geração de música alinhada com o conteúdo de vídeo de alto nível. Também introduzimos um novo esquema de alinhamento vídeo-batida para corresponder as batidas musicais geradas com os movimentos de baixo nível no vídeo. Por fim, para capturar pistas visuais detalhadas em um vídeo necessárias para a geração realista de música de fundo, introduzimos uma nova arquitetura de codificador de vídeo temporal, permitindo-nos processar eficientemente vídeos compostos por muitos quadros densamente amostrados. Treinamos nosso framework em nosso novo conjunto de dados DISCO-MV, composto por 2,2 milhões de amostras vídeo-música, o qual é ordens de magnitude maior do que quaisquer conjuntos de dados anteriores usados para a geração de música de vídeo. Nosso método supera abordagens existentes nos conjuntos de dados DISCO-MV e MusicCaps de acordo com várias métricas de avaliação de geração de música, incluindo avaliação humana. Os resultados estão disponíveis em https://genjib.github.io/project_page/VMAs/index.html
English
We present a framework for learning to generate background music from video
inputs. Unlike existing works that rely on symbolic musical annotations, which
are limited in quantity and diversity, our method leverages large-scale web
videos accompanied by background music. This enables our model to learn to
generate realistic and diverse music. To accomplish this goal, we develop a
generative video-music Transformer with a novel semantic video-music alignment
scheme. Our model uses a joint autoregressive and contrastive learning
objective, which encourages the generation of music aligned with high-level
video content. We also introduce a novel video-beat alignment scheme to match
the generated music beats with the low-level motions in the video. Lastly, to
capture fine-grained visual cues in a video needed for realistic background
music generation, we introduce a new temporal video encoder architecture,
allowing us to efficiently process videos consisting of many densely sampled
frames. We train our framework on our newly curated DISCO-MV dataset,
consisting of 2.2M video-music samples, which is orders of magnitude larger
than any prior datasets used for video music generation. Our method outperforms
existing approaches on the DISCO-MV and MusicCaps datasets according to various
music generation evaluation metrics, including human evaluation. Results are
available at https://genjib.github.io/project_page/VMAs/index.htmlSummary
AI-Generated Summary