V2Meow: Miauwen op de visuele maat via muziekgeneratie
V2Meow: Meowing to the Visual Beat via Music Generation
May 11, 2023
Auteurs: Kun Su, Judith Yue Li, Qingqing Huang, Dima Kuzmin, Joonseok Lee, Chris Donahue, Fei Sha, Aren Jansen, Yu Wang, Mauro Verzetti, Timo I. Denk
cs.AI
Samenvatting
Het genereren van hoogwaardige muziek die de visuele inhoud van een video aanvult, is een uitdagende taak. De meeste bestaande systemen voor visueel geconditioneerde muziekgeneratie produceren symbolische muziekdata, zoals MIDI-bestanden, in plaats van ruide audiogolven. Gezien de beperkte beschikbaarheid van symbolische muziekdata kunnen dergelijke methoden alleen muziek genereren voor een beperkt aantal instrumenten of voor specifieke soorten visuele invoer. In dit artikel presenteren we een nieuwe aanpak genaamd V2Meow, die hoogwaardige muziekaudio kan genereren die goed aansluit bij de visuele semantiek van een diverse reeks video-invoertypen. Specifiek is het voorgestelde muziekgeneratiesysteem een multi-staps autoregressief model dat is getraind met een groot aantal (O(100K)) muziekaudioclips gepaard met videobeelden, die zijn verzameld uit muziekvideo's uit de echte wereld, en waarbij geen parallelle symbolische muziekdata betrokken is. V2Meow is in staat om hoogwaardige muziekaudiogolven te synthetiseren die uitsluitend zijn geconditioneerd op vooraf getrainde visuele kenmerken die zijn geëxtraheerd uit een willekeurige stille videoclip, en het biedt ook hoogwaardige controle over de muziekstijl van gegenereerde voorbeelden door het ondersteunen van tekstprompts naast de conditionering op videobeelden. Door zowel kwalitatieve als kwantitatieve evaluaties tonen we aan dat ons model verschillende bestaande muziekgeneratiesystemen overtreft wat betreft zowel visueel-auditieve overeenstemming als audiokwaliteit.
English
Generating high quality music that complements the visual content of a video
is a challenging task. Most existing visual conditioned music generation
systems generate symbolic music data, such as MIDI files, instead of raw audio
waveform. Given the limited availability of symbolic music data, such methods
can only generate music for a few instruments or for specific types of visual
input. In this paper, we propose a novel approach called V2Meow that can
generate high-quality music audio that aligns well with the visual semantics of
a diverse range of video input types. Specifically, the proposed music
generation system is a multi-stage autoregressive model which is trained with a
number of O(100K) music audio clips paired with video frames, which are mined
from in-the-wild music videos, and no parallel symbolic music data is involved.
V2Meow is able to synthesize high-fidelity music audio waveform solely
conditioned on pre-trained visual features extracted from an arbitrary silent
video clip, and it also allows high-level control over the music style of
generation examples via supporting text prompts in addition to the video frames
conditioning. Through both qualitative and quantitative evaluations, we
demonstrate that our model outperforms several existing music generation
systems in terms of both visual-audio correspondence and audio quality.