V2Meow : Miauler au rythme visuel grâce à la génération musicale

Résumé

La génération de musique de haute qualité qui complète le contenu visuel d'une vidéo est une tâche complexe. La plupart des systèmes existants de génération de musique conditionnée par le visuel produisent des données musicales symboliques, telles que des fichiers MIDI, plutôt que des formes d'onde audio brutes. Étant donné la disponibilité limitée de données musicales symboliques, ces méthodes ne peuvent générer de la musique que pour quelques instruments ou pour des types spécifiques de contenu visuel. Dans cet article, nous proposons une nouvelle approche appelée V2Meow, capable de générer de la musique audio de haute qualité qui s'aligne bien avec la sémantique visuelle d'une large gamme de types de vidéos. Plus précisément, le système de génération de musique proposé est un modèle autorégressif multi-étapes, entraîné avec un grand nombre (de l'ordre de 100 000) de clips audio musicaux associés à des images vidéo, extraits de vidéos musicales disponibles en ligne, sans aucune donnée musicale symbolique parallèle. V2Meow est capable de synthétiser des formes d'onde audio musicales haute fidélité uniquement conditionnées par des caractéristiques visuelles pré-entraînées extraites d'un clip vidéo silencieux arbitraire, et il permet également un contrôle de haut niveau sur le style musical des exemples générés en supportant des invites textuelles en plus du conditionnement par les images vidéo. Grâce à des évaluations qualitatives et quantitatives, nous démontrons que notre modèle surpasse plusieurs systèmes de génération de musique existants en termes de correspondance visuel-audio et de qualité audio.

English

Generating high quality music that complements the visual content of a video is a challenging task. Most existing visual conditioned music generation systems generate symbolic music data, such as MIDI files, instead of raw audio waveform. Given the limited availability of symbolic music data, such methods can only generate music for a few instruments or for specific types of visual input. In this paper, we propose a novel approach called V2Meow that can generate high-quality music audio that aligns well with the visual semantics of a diverse range of video input types. Specifically, the proposed music generation system is a multi-stage autoregressive model which is trained with a number of O(100K) music audio clips paired with video frames, which are mined from in-the-wild music videos, and no parallel symbolic music data is involved. V2Meow is able to synthesize high-fidelity music audio waveform solely conditioned on pre-trained visual features extracted from an arbitrary silent video clip, and it also allows high-level control over the music style of generation examples via supporting text prompts in addition to the video frames conditioning. Through both qualitative and quantitative evaluations, we demonstrate that our model outperforms several existing music generation systems in terms of both visual-audio correspondence and audio quality.

V2Meow : Miauler au rythme visuel grâce à la génération musicale

V2Meow: Meowing to the Visual Beat via Music Generation

Résumé

Support