Recomendação de Música Guiada por Linguagem para Vídeo via Analogias de Prompt

Resumo

Propomos um método para recomendar música para um vídeo de entrada, permitindo que o usuário oriente a seleção musical com linguagem natural de forma livre. Um desafio fundamental nesse cenário é que os conjuntos de dados existentes de vídeos musicais fornecem os pares de treinamento necessários (vídeo, música), mas carecem de descrições textuais da música. Este trabalho aborda esse desafio com as seguintes três contribuições. Primeiro, propomos uma abordagem de síntese textual que se baseia em um procedimento de prompt por analogia para gerar descrições musicais em linguagem natural a partir de um modelo de linguagem em larga escala (BLOOM-176B), utilizando saídas de um classificador de tags musicais pré-treinado e um pequeno número de descrições textuais humanas. Segundo, usamos essas descrições musicais sintetizadas para treinar um novo modelo trimodal, que funde representações de entrada de texto e vídeo para consultar amostras musicais. Para o treinamento, introduzimos um mecanismo de regularização por dropout textual, que demonstramos ser crucial para o desempenho do modelo. O design do nosso modelo permite que a música recuperada esteja alinhada com as duas modalidades de entrada, correspondendo ao estilo visual retratado no vídeo e ao gênero musical, humor ou instrumentação descritos na consulta em linguagem natural. Terceiro, para avaliar nossa abordagem, coletamos um conjunto de dados de teste para nosso problema, anotando um subconjunto de 4 mil clipes do conjunto de dados YT8M-MusicVideo com descrições musicais em linguagem natural, que disponibilizamos publicamente. Demonstramos que nossa abordagem pode igualar ou superar o desempenho de métodos anteriores na recuperação de música a partir de vídeo, enquanto melhora significativamente a precisão da recuperação ao usar orientação textual.

English

We propose a method to recommend music for an input video while allowing a user to guide music selection with free-form natural language. A key challenge of this problem setting is that existing music video datasets provide the needed (video, music) training pairs, but lack text descriptions of the music. This work addresses this challenge with the following three contributions. First, we propose a text-synthesis approach that relies on an analogy-based prompting procedure to generate natural language music descriptions from a large-scale language model (BLOOM-176B) given pre-trained music tagger outputs and a small number of human text descriptions. Second, we use these synthesized music descriptions to train a new trimodal model, which fuses text and video input representations to query music samples. For training, we introduce a text dropout regularization mechanism which we show is critical to model performance. Our model design allows for the retrieved music audio to agree with the two input modalities by matching visual style depicted in the video and musical genre, mood, or instrumentation described in the natural language query. Third, to evaluate our approach, we collect a testing dataset for our problem by annotating a subset of 4k clips from the YT8M-MusicVideo dataset with natural language music descriptions which we make publicly available. We show that our approach can match or exceed the performance of prior methods on video-to-music retrieval while significantly improving retrieval accuracy when using text guidance.

Recomendação de Música Guiada por Linguagem para Vídeo via Analogias de Prompt

Language-Guided Music Recommendation for Video via Prompt Analogies

Resumo

Support