Taalgestuurde Muziekaanbeveling voor Video via Prompt-analogieën

Samenvatting

We stellen een methode voor om muziek aan te bevelen voor een invoervideo, waarbij een gebruiker de muziekselectie kan begeleiden met vrije-vorm natuurlijke taal. Een belangrijke uitdaging van deze probleemstelling is dat bestaande muziekvideo-datasets de benodigde (video, muziek) trainingsparen bieden, maar tekstbeschrijvingen van de muziek ontbreken. Dit werk gaat deze uitdaging aan met de volgende drie bijdragen. Ten eerste stellen we een tekstsynthesebenadering voor die vertrouwt op een op analogie gebaseerde promptingprocedure om natuurlijke taal muziekbeschrijvingen te genereren vanuit een grootschalig taalmodel (BLOOM-176B), gegeven uitvoer van een voorgetrainde muziektagger en een klein aantal menselijke tekstbeschrijvingen. Ten tweede gebruiken we deze gesynthetiseerde muziekbeschrijvingen om een nieuw trimodaal model te trainen, dat tekst- en video-invoerrepresentaties samenvoegt om muziekvoorbeelden te bevragen. Voor de training introduceren we een tekstdropout-regularisatiemechanisme waarvan we aantonen dat het cruciaal is voor de modelprestaties. Ons modelontwerp zorgt ervoor dat de opgehaalde muziek overeenkomt met de twee invoermodaliteiten door de visuele stijl in de video en het muziekgenre, de stemming of de instrumentatie die in de natuurlijke taalquery wordt beschreven, te matchen. Ten derde verzamelen we een testdataset voor ons probleem door een subset van 4k clips uit de YT8M-MusicVideo-dataset te annoteren met natuurlijke taal muziekbeschrijvingen, die we publiekelijk beschikbaar maken. We tonen aan dat onze aanpak de prestaties van eerdere methoden voor video-naar-muziekretrieval kan evenaren of overtreffen, terwijl de retrievalnauwkeurigheid aanzienlijk verbetert bij het gebruik van tekstbegeleiding.

English

We propose a method to recommend music for an input video while allowing a user to guide music selection with free-form natural language. A key challenge of this problem setting is that existing music video datasets provide the needed (video, music) training pairs, but lack text descriptions of the music. This work addresses this challenge with the following three contributions. First, we propose a text-synthesis approach that relies on an analogy-based prompting procedure to generate natural language music descriptions from a large-scale language model (BLOOM-176B) given pre-trained music tagger outputs and a small number of human text descriptions. Second, we use these synthesized music descriptions to train a new trimodal model, which fuses text and video input representations to query music samples. For training, we introduce a text dropout regularization mechanism which we show is critical to model performance. Our model design allows for the retrieved music audio to agree with the two input modalities by matching visual style depicted in the video and musical genre, mood, or instrumentation described in the natural language query. Third, to evaluate our approach, we collect a testing dataset for our problem by annotating a subset of 4k clips from the YT8M-MusicVideo dataset with natural language music descriptions which we make publicly available. We show that our approach can match or exceed the performance of prior methods on video-to-music retrieval while significantly improving retrieval accuracy when using text guidance.

Taalgestuurde Muziekaanbeveling voor Video via Prompt-analogieën

Language-Guided Music Recommendation for Video via Prompt Analogies

Samenvatting

Support