V2Meow: Im visuellen Takt miauen durch Musikerzeugung
V2Meow: Meowing to the Visual Beat via Music Generation
May 11, 2023
Autoren: Kun Su, Judith Yue Li, Qingqing Huang, Dima Kuzmin, Joonseok Lee, Chris Donahue, Fei Sha, Aren Jansen, Yu Wang, Mauro Verzetti, Timo I. Denk
cs.AI
Zusammenfassung
Die Erzeugung von hochwertiger Musik, die den visuellen Inhalt eines Videos ergänzt, ist eine anspruchsvolle Aufgabe. Die meisten bestehenden Systeme zur visuell bedingten Musikerzeugung generieren symbolische Musikdaten, wie MIDI-Dateien, anstatt Roh-Audiowellenformen. Aufgrund der begrenzten Verfügbarkeit von symbolischen Musikdaten können solche Methoden nur Musik für wenige Instrumente oder für spezifische Arten von visuellen Eingaben erzeugen. In diesem Artikel schlagen wir einen neuartigen Ansatz namens V2Meow vor, der hochwertige Musik-Audiodateien erzeugen kann, die gut mit der visuellen Semantik einer Vielzahl von Video-Eingabetypen übereinstimmen. Konkret handelt es sich bei dem vorgeschlagenen Musikgenerierungssystem um ein mehrstufiges autoregressives Modell, das mit einer Vielzahl von O(100K) Musik-Audioclips trainiert wird, die mit Videobildern gepaart sind und aus frei verfügbaren Musikvideos stammen, wobei keine parallelen symbolischen Musikdaten verwendet werden. V2Meow ist in der Lage, hochauflösende Musik-Audiowellenformen allein basierend auf vortrainierten visuellen Merkmalen zu synthetisieren, die aus einem beliebigen stummen Videoclip extrahiert wurden, und ermöglicht zudem eine hochgradige Kontrolle über den Musikstil der generierten Beispiele durch die Unterstützung von Textprompts zusätzlich zur Bedingung durch Videobilder. Durch sowohl qualitative als auch quantitative Bewertungen zeigen wir, dass unser Modell mehrere bestehende Musikgenerierungssysteme in Bezug auf die visuell-auditive Korrespondenz und die Audioqualität übertrifft.
English
Generating high quality music that complements the visual content of a video
is a challenging task. Most existing visual conditioned music generation
systems generate symbolic music data, such as MIDI files, instead of raw audio
waveform. Given the limited availability of symbolic music data, such methods
can only generate music for a few instruments or for specific types of visual
input. In this paper, we propose a novel approach called V2Meow that can
generate high-quality music audio that aligns well with the visual semantics of
a diverse range of video input types. Specifically, the proposed music
generation system is a multi-stage autoregressive model which is trained with a
number of O(100K) music audio clips paired with video frames, which are mined
from in-the-wild music videos, and no parallel symbolic music data is involved.
V2Meow is able to synthesize high-fidelity music audio waveform solely
conditioned on pre-trained visual features extracted from an arbitrary silent
video clip, and it also allows high-level control over the music style of
generation examples via supporting text prompts in addition to the video frames
conditioning. Through both qualitative and quantitative evaluations, we
demonstrate that our model outperforms several existing music generation
systems in terms of both visual-audio correspondence and audio quality.