Taalgestuurde Muziekaanbeveling voor Video via Prompt-analogieën
Language-Guided Music Recommendation for Video via Prompt Analogies
June 15, 2023
Auteurs: Daniel McKee, Justin Salamon, Josef Sivic, Bryan Russell
cs.AI
Samenvatting
We stellen een methode voor om muziek aan te bevelen voor een invoervideo, waarbij een gebruiker de muziekselectie kan begeleiden met vrije-vorm natuurlijke taal. Een belangrijke uitdaging van deze probleemstelling is dat bestaande muziekvideo-datasets de benodigde (video, muziek) trainingsparen bieden, maar tekstbeschrijvingen van de muziek ontbreken. Dit werk gaat deze uitdaging aan met de volgende drie bijdragen. Ten eerste stellen we een tekstsynthesebenadering voor die vertrouwt op een op analogie gebaseerde promptingprocedure om natuurlijke taal muziekbeschrijvingen te genereren vanuit een grootschalig taalmodel (BLOOM-176B), gegeven uitvoer van een voorgetrainde muziektagger en een klein aantal menselijke tekstbeschrijvingen. Ten tweede gebruiken we deze gesynthetiseerde muziekbeschrijvingen om een nieuw trimodaal model te trainen, dat tekst- en video-invoerrepresentaties samenvoegt om muziekvoorbeelden te bevragen. Voor de training introduceren we een tekstdropout-regularisatiemechanisme waarvan we aantonen dat het cruciaal is voor de modelprestaties. Ons modelontwerp zorgt ervoor dat de opgehaalde muziek overeenkomt met de twee invoermodaliteiten door de visuele stijl in de video en het muziekgenre, de stemming of de instrumentatie die in de natuurlijke taalquery wordt beschreven, te matchen. Ten derde verzamelen we een testdataset voor ons probleem door een subset van 4k clips uit de YT8M-MusicVideo-dataset te annoteren met natuurlijke taal muziekbeschrijvingen, die we publiekelijk beschikbaar maken. We tonen aan dat onze aanpak de prestaties van eerdere methoden voor video-naar-muziekretrieval kan evenaren of overtreffen, terwijl de retrievalnauwkeurigheid aanzienlijk verbetert bij het gebruik van tekstbegeleiding.
English
We propose a method to recommend music for an input video while allowing a
user to guide music selection with free-form natural language. A key challenge
of this problem setting is that existing music video datasets provide the
needed (video, music) training pairs, but lack text descriptions of the music.
This work addresses this challenge with the following three contributions.
First, we propose a text-synthesis approach that relies on an analogy-based
prompting procedure to generate natural language music descriptions from a
large-scale language model (BLOOM-176B) given pre-trained music tagger outputs
and a small number of human text descriptions. Second, we use these synthesized
music descriptions to train a new trimodal model, which fuses text and video
input representations to query music samples. For training, we introduce a text
dropout regularization mechanism which we show is critical to model
performance. Our model design allows for the retrieved music audio to agree
with the two input modalities by matching visual style depicted in the video
and musical genre, mood, or instrumentation described in the natural language
query. Third, to evaluate our approach, we collect a testing dataset for our
problem by annotating a subset of 4k clips from the YT8M-MusicVideo dataset
with natural language music descriptions which we make publicly available. We
show that our approach can match or exceed the performance of prior methods on
video-to-music retrieval while significantly improving retrieval accuracy when
using text guidance.