Recomendação de Música Guiada por Linguagem para Vídeo via Analogias de Prompt
Language-Guided Music Recommendation for Video via Prompt Analogies
June 15, 2023
Autores: Daniel McKee, Justin Salamon, Josef Sivic, Bryan Russell
cs.AI
Resumo
Propomos um método para recomendar música para um vídeo de entrada, permitindo que o usuário oriente a seleção musical com linguagem natural de forma livre. Um desafio fundamental nesse cenário é que os conjuntos de dados existentes de vídeos musicais fornecem os pares de treinamento necessários (vídeo, música), mas carecem de descrições textuais da música. Este trabalho aborda esse desafio com as seguintes três contribuições. Primeiro, propomos uma abordagem de síntese textual que se baseia em um procedimento de prompt por analogia para gerar descrições musicais em linguagem natural a partir de um modelo de linguagem em larga escala (BLOOM-176B), utilizando saídas de um classificador de tags musicais pré-treinado e um pequeno número de descrições textuais humanas. Segundo, usamos essas descrições musicais sintetizadas para treinar um novo modelo trimodal, que funde representações de entrada de texto e vídeo para consultar amostras musicais. Para o treinamento, introduzimos um mecanismo de regularização por dropout textual, que demonstramos ser crucial para o desempenho do modelo. O design do nosso modelo permite que a música recuperada esteja alinhada com as duas modalidades de entrada, correspondendo ao estilo visual retratado no vídeo e ao gênero musical, humor ou instrumentação descritos na consulta em linguagem natural. Terceiro, para avaliar nossa abordagem, coletamos um conjunto de dados de teste para nosso problema, anotando um subconjunto de 4 mil clipes do conjunto de dados YT8M-MusicVideo com descrições musicais em linguagem natural, que disponibilizamos publicamente. Demonstramos que nossa abordagem pode igualar ou superar o desempenho de métodos anteriores na recuperação de música a partir de vídeo, enquanto melhora significativamente a precisão da recuperação ao usar orientação textual.
English
We propose a method to recommend music for an input video while allowing a
user to guide music selection with free-form natural language. A key challenge
of this problem setting is that existing music video datasets provide the
needed (video, music) training pairs, but lack text descriptions of the music.
This work addresses this challenge with the following three contributions.
First, we propose a text-synthesis approach that relies on an analogy-based
prompting procedure to generate natural language music descriptions from a
large-scale language model (BLOOM-176B) given pre-trained music tagger outputs
and a small number of human text descriptions. Second, we use these synthesized
music descriptions to train a new trimodal model, which fuses text and video
input representations to query music samples. For training, we introduce a text
dropout regularization mechanism which we show is critical to model
performance. Our model design allows for the retrieved music audio to agree
with the two input modalities by matching visual style depicted in the video
and musical genre, mood, or instrumentation described in the natural language
query. Third, to evaluate our approach, we collect a testing dataset for our
problem by annotating a subset of 4k clips from the YT8M-MusicVideo dataset
with natural language music descriptions which we make publicly available. We
show that our approach can match or exceed the performance of prior methods on
video-to-music retrieval while significantly improving retrieval accuracy when
using text guidance.