Recomendación de música guiada por lenguaje para video mediante analogías de prompts
Language-Guided Music Recommendation for Video via Prompt Analogies
June 15, 2023
Autores: Daniel McKee, Justin Salamon, Josef Sivic, Bryan Russell
cs.AI
Resumen
Proponemos un método para recomendar música para un video de entrada mientras permitimos que un usuario guíe la selección musical mediante lenguaje natural de forma libre. Un desafío clave de este escenario es que los conjuntos de datos existentes de videos musicales proporcionan los pares de entrenamiento necesarios (video, música), pero carecen de descripciones textuales de la música. Este trabajo aborda este desafío con las siguientes tres contribuciones. Primero, proponemos un enfoque de síntesis de texto que se basa en un procedimiento de indicación basado en analogías para generar descripciones musicales en lenguaje natural a partir de un modelo de lenguaje a gran escala (BLOOM-176B), utilizando salidas de un etiquetador musical preentrenado y un pequeño número de descripciones textuales humanas. Segundo, utilizamos estas descripciones musicales sintetizadas para entrenar un nuevo modelo trimodal, que fusiona representaciones de entrada de texto y video para consultar muestras musicales. Para el entrenamiento, introducimos un mecanismo de regularización por abandono de texto, que demostramos es crítico para el rendimiento del modelo. Nuestro diseño de modelo permite que la música recuperada coincida con las dos modalidades de entrada al igualar el estilo visual representado en el video y el género musical, estado de ánimo o instrumentación descritos en la consulta de lenguaje natural. Tercero, para evaluar nuestro enfoque, recopilamos un conjunto de datos de prueba para nuestro problema al anotar un subconjunto de 4k clips del conjunto de datos YT8M-MusicVideo con descripciones musicales en lenguaje natural, las cuales ponemos a disposición del público. Demostramos que nuestro enfoque puede igualar o superar el rendimiento de métodos anteriores en la recuperación de música a partir de video, mientras mejora significativamente la precisión de recuperación cuando se utiliza guía textual.
English
We propose a method to recommend music for an input video while allowing a
user to guide music selection with free-form natural language. A key challenge
of this problem setting is that existing music video datasets provide the
needed (video, music) training pairs, but lack text descriptions of the music.
This work addresses this challenge with the following three contributions.
First, we propose a text-synthesis approach that relies on an analogy-based
prompting procedure to generate natural language music descriptions from a
large-scale language model (BLOOM-176B) given pre-trained music tagger outputs
and a small number of human text descriptions. Second, we use these synthesized
music descriptions to train a new trimodal model, which fuses text and video
input representations to query music samples. For training, we introduce a text
dropout regularization mechanism which we show is critical to model
performance. Our model design allows for the retrieved music audio to agree
with the two input modalities by matching visual style depicted in the video
and musical genre, mood, or instrumentation described in the natural language
query. Third, to evaluate our approach, we collect a testing dataset for our
problem by annotating a subset of 4k clips from the YT8M-MusicVideo dataset
with natural language music descriptions which we make publicly available. We
show that our approach can match or exceed the performance of prior methods on
video-to-music retrieval while significantly improving retrieval accuracy when
using text guidance.