V2Meow : Miauler au rythme visuel grâce à la génération musicale
V2Meow: Meowing to the Visual Beat via Music Generation
May 11, 2023
Auteurs: Kun Su, Judith Yue Li, Qingqing Huang, Dima Kuzmin, Joonseok Lee, Chris Donahue, Fei Sha, Aren Jansen, Yu Wang, Mauro Verzetti, Timo I. Denk
cs.AI
Résumé
La génération de musique de haute qualité qui complète le contenu visuel d'une vidéo est une tâche complexe. La plupart des systèmes existants de génération de musique conditionnée par le visuel produisent des données musicales symboliques, telles que des fichiers MIDI, plutôt que des formes d'onde audio brutes. Étant donné la disponibilité limitée de données musicales symboliques, ces méthodes ne peuvent générer de la musique que pour quelques instruments ou pour des types spécifiques de contenu visuel. Dans cet article, nous proposons une nouvelle approche appelée V2Meow, capable de générer de la musique audio de haute qualité qui s'aligne bien avec la sémantique visuelle d'une large gamme de types de vidéos. Plus précisément, le système de génération de musique proposé est un modèle autorégressif multi-étapes, entraîné avec un grand nombre (de l'ordre de 100 000) de clips audio musicaux associés à des images vidéo, extraits de vidéos musicales disponibles en ligne, sans aucune donnée musicale symbolique parallèle. V2Meow est capable de synthétiser des formes d'onde audio musicales haute fidélité uniquement conditionnées par des caractéristiques visuelles pré-entraînées extraites d'un clip vidéo silencieux arbitraire, et il permet également un contrôle de haut niveau sur le style musical des exemples générés en supportant des invites textuelles en plus du conditionnement par les images vidéo. Grâce à des évaluations qualitatives et quantitatives, nous démontrons que notre modèle surpasse plusieurs systèmes de génération de musique existants en termes de correspondance visuel-audio et de qualité audio.
English
Generating high quality music that complements the visual content of a video
is a challenging task. Most existing visual conditioned music generation
systems generate symbolic music data, such as MIDI files, instead of raw audio
waveform. Given the limited availability of symbolic music data, such methods
can only generate music for a few instruments or for specific types of visual
input. In this paper, we propose a novel approach called V2Meow that can
generate high-quality music audio that aligns well with the visual semantics of
a diverse range of video input types. Specifically, the proposed music
generation system is a multi-stage autoregressive model which is trained with a
number of O(100K) music audio clips paired with video frames, which are mined
from in-the-wild music videos, and no parallel symbolic music data is involved.
V2Meow is able to synthesize high-fidelity music audio waveform solely
conditioned on pre-trained visual features extracted from an arbitrary silent
video clip, and it also allows high-level control over the music style of
generation examples via supporting text prompts in addition to the video frames
conditioning. Through both qualitative and quantitative evaluations, we
demonstrate that our model outperforms several existing music generation
systems in terms of both visual-audio correspondence and audio quality.