Raccomandazione Musicale Guidata dal Linguaggio per Video tramite Analogie di Prompt

Abstract

Proponiamo un metodo per raccomandare musica per un video in input, consentendo all'utente di guidare la selezione musicale attraverso descrizioni in linguaggio naturale libero. Una delle principali sfide di questo contesto è che i dataset esistenti di video musicali forniscono le necessarie coppie di addestramento (video, musica), ma mancano di descrizioni testuali della musica. Questo lavoro affronta tale sfida con i seguenti tre contributi. Innanzitutto, proponiamo un approccio di sintesi testuale che si basa su una procedura di prompting basata su analogie per generare descrizioni musicali in linguaggio naturale da un modello linguistico su larga scala (BLOOM-176B), utilizzando come input i risultati di un classificatore musicale pre-addestrato e un piccolo numero di descrizioni testuali umane. In secondo luogo, utilizziamo queste descrizioni musicali sintetizzate per addestrare un nuovo modello trimodale, che fonde le rappresentazioni di input testuali e video per interrogare campioni musicali. Per l'addestramento, introduciamo un meccanismo di regolarizzazione tramite dropout testuale, che dimostriamo essere cruciale per le prestazioni del modello. Il design del nostro modello consente alla musica recuperata di essere coerente con le due modalità di input, abbinando lo stile visivo rappresentato nel video e il genere musicale, l'umore o gli strumenti descritti nella query in linguaggio naturale. In terzo luogo, per valutare il nostro approccio, raccogliamo un dataset di test per il nostro problema annotando un sottoinsieme di 4k clip dal dataset YT8M-MusicVideo con descrizioni musicali in linguaggio naturale, che rendiamo pubblicamente disponibili. Dimostriamo che il nostro approccio può eguagliare o superare le prestazioni dei metodi precedenti nel recupero musica-da-video, migliorando significativamente l'accuratezza del recupero quando si utilizza la guida testuale.

English

We propose a method to recommend music for an input video while allowing a user to guide music selection with free-form natural language. A key challenge of this problem setting is that existing music video datasets provide the needed (video, music) training pairs, but lack text descriptions of the music. This work addresses this challenge with the following three contributions. First, we propose a text-synthesis approach that relies on an analogy-based prompting procedure to generate natural language music descriptions from a large-scale language model (BLOOM-176B) given pre-trained music tagger outputs and a small number of human text descriptions. Second, we use these synthesized music descriptions to train a new trimodal model, which fuses text and video input representations to query music samples. For training, we introduce a text dropout regularization mechanism which we show is critical to model performance. Our model design allows for the retrieved music audio to agree with the two input modalities by matching visual style depicted in the video and musical genre, mood, or instrumentation described in the natural language query. Third, to evaluate our approach, we collect a testing dataset for our problem by annotating a subset of 4k clips from the YT8M-MusicVideo dataset with natural language music descriptions which we make publicly available. We show that our approach can match or exceed the performance of prior methods on video-to-music retrieval while significantly improving retrieval accuracy when using text guidance.

Raccomandazione Musicale Guidata dal Linguaggio per Video tramite Analogie di Prompt

Language-Guided Music Recommendation for Video via Prompt Analogies

Abstract

Support