V2Meow: Miauwen op de visuele maat via muziekgeneratie

Samenvatting

Het genereren van hoogwaardige muziek die de visuele inhoud van een video aanvult, is een uitdagende taak. De meeste bestaande systemen voor visueel geconditioneerde muziekgeneratie produceren symbolische muziekdata, zoals MIDI-bestanden, in plaats van ruide audiogolven. Gezien de beperkte beschikbaarheid van symbolische muziekdata kunnen dergelijke methoden alleen muziek genereren voor een beperkt aantal instrumenten of voor specifieke soorten visuele invoer. In dit artikel presenteren we een nieuwe aanpak genaamd V2Meow, die hoogwaardige muziekaudio kan genereren die goed aansluit bij de visuele semantiek van een diverse reeks video-invoertypen. Specifiek is het voorgestelde muziekgeneratiesysteem een multi-staps autoregressief model dat is getraind met een groot aantal (O(100K)) muziekaudioclips gepaard met videobeelden, die zijn verzameld uit muziekvideo's uit de echte wereld, en waarbij geen parallelle symbolische muziekdata betrokken is. V2Meow is in staat om hoogwaardige muziekaudiogolven te synthetiseren die uitsluitend zijn geconditioneerd op vooraf getrainde visuele kenmerken die zijn geëxtraheerd uit een willekeurige stille videoclip, en het biedt ook hoogwaardige controle over de muziekstijl van gegenereerde voorbeelden door het ondersteunen van tekstprompts naast de conditionering op videobeelden. Door zowel kwalitatieve als kwantitatieve evaluaties tonen we aan dat ons model verschillende bestaande muziekgeneratiesystemen overtreft wat betreft zowel visueel-auditieve overeenstemming als audiokwaliteit.

English

Generating high quality music that complements the visual content of a video is a challenging task. Most existing visual conditioned music generation systems generate symbolic music data, such as MIDI files, instead of raw audio waveform. Given the limited availability of symbolic music data, such methods can only generate music for a few instruments or for specific types of visual input. In this paper, we propose a novel approach called V2Meow that can generate high-quality music audio that aligns well with the visual semantics of a diverse range of video input types. Specifically, the proposed music generation system is a multi-stage autoregressive model which is trained with a number of O(100K) music audio clips paired with video frames, which are mined from in-the-wild music videos, and no parallel symbolic music data is involved. V2Meow is able to synthesize high-fidelity music audio waveform solely conditioned on pre-trained visual features extracted from an arbitrary silent video clip, and it also allows high-level control over the music style of generation examples via supporting text prompts in addition to the video frames conditioning. Through both qualitative and quantitative evaluations, we demonstrate that our model outperforms several existing music generation systems in terms of both visual-audio correspondence and audio quality.

V2Meow: Miauwen op de visuele maat via muziekgeneratie

V2Meow: Meowing to the Visual Beat via Music Generation

Samenvatting

Support