V2Meow: Miando no Ritmo Visual através da Geração de Música

Resumo

Gerar música de alta qualidade que complemente o conteúdo visual de um vídeo é uma tarefa desafiadora. A maioria dos sistemas existentes de geração de música condicionada visualmente produz dados musicais simbólicos, como arquivos MIDI, em vez de formas de onda de áudio bruto. Dada a disponibilidade limitada de dados musicais simbólicos, tais métodos só podem gerar música para poucos instrumentos ou para tipos específicos de entrada visual. Neste artigo, propomos uma nova abordagem chamada V2Meow, que pode gerar áudio musical de alta qualidade que se alinha bem com a semântica visual de uma ampla variedade de tipos de entrada de vídeo. Especificamente, o sistema de geração de música proposto é um modelo autoregressivo de múltiplos estágios, treinado com um número da ordem de O(100K) de clipes de áudio musical emparelhados com quadros de vídeo, extraídos de vídeos musicais capturados em ambiente real, sem envolver dados musicais simbólicos paralelos. O V2Meow é capaz de sintetizar formas de onda de áudio musical de alta fidelidade condicionadas exclusivamente a características visuais pré-treinadas extraídas de um clipe de vídeo silencioso arbitrário, e também permite um controle de alto nível sobre o estilo musical dos exemplos gerados, suportando prompts de texto além do condicionamento por quadros de vídeo. Por meio de avaliações qualitativas e quantitativas, demonstramos que nosso modelo supera vários sistemas existentes de geração de música em termos de correspondência visual-áudio e qualidade de áudio.

English

Generating high quality music that complements the visual content of a video is a challenging task. Most existing visual conditioned music generation systems generate symbolic music data, such as MIDI files, instead of raw audio waveform. Given the limited availability of symbolic music data, such methods can only generate music for a few instruments or for specific types of visual input. In this paper, we propose a novel approach called V2Meow that can generate high-quality music audio that aligns well with the visual semantics of a diverse range of video input types. Specifically, the proposed music generation system is a multi-stage autoregressive model which is trained with a number of O(100K) music audio clips paired with video frames, which are mined from in-the-wild music videos, and no parallel symbolic music data is involved. V2Meow is able to synthesize high-fidelity music audio waveform solely conditioned on pre-trained visual features extracted from an arbitrary silent video clip, and it also allows high-level control over the music style of generation examples via supporting text prompts in addition to the video frames conditioning. Through both qualitative and quantitative evaluations, we demonstrate that our model outperforms several existing music generation systems in terms of both visual-audio correspondence and audio quality.

V2Meow: Miando no Ritmo Visual através da Geração de Música

V2Meow: Meowing to the Visual Beat via Music Generation

Resumo

Support