V2Meow: Miagolare a ritmo visivo attraverso la generazione musicale

Abstract

Generare musica di alta qualità che si integri con il contenuto visivo di un video è un compito impegnativo. La maggior parte dei sistemi esistenti per la generazione di musica condizionata visivamente produce dati musicali simbolici, come file MIDI, anziché waveform audio grezzi. Data la limitata disponibilità di dati musicali simbolici, tali metodi possono generare musica solo per pochi strumenti o per specifici tipi di input visivo. In questo articolo, proponiamo un approccio innovativo chiamato V2Meow, in grado di generare audio musicale di alta qualità che si allinea bene con la semantica visiva di un'ampia gamma di tipi di input video. Nello specifico, il sistema di generazione musicale proposto è un modello autoregressivo a più stadi, addestrato con un numero di O(100K) clip audio musicali accoppiate a frame video, estratte da video musicali reali, senza l'uso di dati musicali simbolici paralleli. V2Meow è in grado di sintetizzare waveform audio musicali ad alta fedeltà condizionati esclusivamente da feature visive pre-addestrate estratte da un qualsiasi clip video silenzioso, e consente anche un controllo di alto livello sullo stile musicale degli esempi generati, supportando prompt testuali oltre al condizionamento sui frame video. Attraverso valutazioni sia qualitative che quantitative, dimostriamo che il nostro modello supera diversi sistemi esistenti di generazione musicale in termini di corrispondenza visivo-audio e qualità dell'audio.

English

Generating high quality music that complements the visual content of a video is a challenging task. Most existing visual conditioned music generation systems generate symbolic music data, such as MIDI files, instead of raw audio waveform. Given the limited availability of symbolic music data, such methods can only generate music for a few instruments or for specific types of visual input. In this paper, we propose a novel approach called V2Meow that can generate high-quality music audio that aligns well with the visual semantics of a diverse range of video input types. Specifically, the proposed music generation system is a multi-stage autoregressive model which is trained with a number of O(100K) music audio clips paired with video frames, which are mined from in-the-wild music videos, and no parallel symbolic music data is involved. V2Meow is able to synthesize high-fidelity music audio waveform solely conditioned on pre-trained visual features extracted from an arbitrary silent video clip, and it also allows high-level control over the music style of generation examples via supporting text prompts in addition to the video frames conditioning. Through both qualitative and quantitative evaluations, we demonstrate that our model outperforms several existing music generation systems in terms of both visual-audio correspondence and audio quality.

V2Meow: Miagolare a ritmo visivo attraverso la generazione musicale

V2Meow: Meowing to the Visual Beat via Music Generation

Abstract

Support