V2Meow: Miando no Ritmo Visual através da Geração de Música
V2Meow: Meowing to the Visual Beat via Music Generation
May 11, 2023
Autores: Kun Su, Judith Yue Li, Qingqing Huang, Dima Kuzmin, Joonseok Lee, Chris Donahue, Fei Sha, Aren Jansen, Yu Wang, Mauro Verzetti, Timo I. Denk
cs.AI
Resumo
Gerar música de alta qualidade que complemente o conteúdo visual de um vídeo é uma tarefa desafiadora. A maioria dos sistemas existentes de geração de música condicionada visualmente produz dados musicais simbólicos, como arquivos MIDI, em vez de formas de onda de áudio bruto. Dada a disponibilidade limitada de dados musicais simbólicos, tais métodos só podem gerar música para poucos instrumentos ou para tipos específicos de entrada visual. Neste artigo, propomos uma nova abordagem chamada V2Meow, que pode gerar áudio musical de alta qualidade que se alinha bem com a semântica visual de uma ampla variedade de tipos de entrada de vídeo. Especificamente, o sistema de geração de música proposto é um modelo autoregressivo de múltiplos estágios, treinado com um número da ordem de O(100K) de clipes de áudio musical emparelhados com quadros de vídeo, extraídos de vídeos musicais capturados em ambiente real, sem envolver dados musicais simbólicos paralelos. O V2Meow é capaz de sintetizar formas de onda de áudio musical de alta fidelidade condicionadas exclusivamente a características visuais pré-treinadas extraídas de um clipe de vídeo silencioso arbitrário, e também permite um controle de alto nível sobre o estilo musical dos exemplos gerados, suportando prompts de texto além do condicionamento por quadros de vídeo. Por meio de avaliações qualitativas e quantitativas, demonstramos que nosso modelo supera vários sistemas existentes de geração de música em termos de correspondência visual-áudio e qualidade de áudio.
English
Generating high quality music that complements the visual content of a video
is a challenging task. Most existing visual conditioned music generation
systems generate symbolic music data, such as MIDI files, instead of raw audio
waveform. Given the limited availability of symbolic music data, such methods
can only generate music for a few instruments or for specific types of visual
input. In this paper, we propose a novel approach called V2Meow that can
generate high-quality music audio that aligns well with the visual semantics of
a diverse range of video input types. Specifically, the proposed music
generation system is a multi-stage autoregressive model which is trained with a
number of O(100K) music audio clips paired with video frames, which are mined
from in-the-wild music videos, and no parallel symbolic music data is involved.
V2Meow is able to synthesize high-fidelity music audio waveform solely
conditioned on pre-trained visual features extracted from an arbitrary silent
video clip, and it also allows high-level control over the music style of
generation examples via supporting text prompts in addition to the video frames
conditioning. Through both qualitative and quantitative evaluations, we
demonstrate that our model outperforms several existing music generation
systems in terms of both visual-audio correspondence and audio quality.