Recomendación de música guiada por lenguaje para video mediante analogías de prompts

Resumen

Proponemos un método para recomendar música para un video de entrada mientras permitimos que un usuario guíe la selección musical mediante lenguaje natural de forma libre. Un desafío clave de este escenario es que los conjuntos de datos existentes de videos musicales proporcionan los pares de entrenamiento necesarios (video, música), pero carecen de descripciones textuales de la música. Este trabajo aborda este desafío con las siguientes tres contribuciones. Primero, proponemos un enfoque de síntesis de texto que se basa en un procedimiento de indicación basado en analogías para generar descripciones musicales en lenguaje natural a partir de un modelo de lenguaje a gran escala (BLOOM-176B), utilizando salidas de un etiquetador musical preentrenado y un pequeño número de descripciones textuales humanas. Segundo, utilizamos estas descripciones musicales sintetizadas para entrenar un nuevo modelo trimodal, que fusiona representaciones de entrada de texto y video para consultar muestras musicales. Para el entrenamiento, introducimos un mecanismo de regularización por abandono de texto, que demostramos es crítico para el rendimiento del modelo. Nuestro diseño de modelo permite que la música recuperada coincida con las dos modalidades de entrada al igualar el estilo visual representado en el video y el género musical, estado de ánimo o instrumentación descritos en la consulta de lenguaje natural. Tercero, para evaluar nuestro enfoque, recopilamos un conjunto de datos de prueba para nuestro problema al anotar un subconjunto de 4k clips del conjunto de datos YT8M-MusicVideo con descripciones musicales en lenguaje natural, las cuales ponemos a disposición del público. Demostramos que nuestro enfoque puede igualar o superar el rendimiento de métodos anteriores en la recuperación de música a partir de video, mientras mejora significativamente la precisión de recuperación cuando se utiliza guía textual.

English

We propose a method to recommend music for an input video while allowing a user to guide music selection with free-form natural language. A key challenge of this problem setting is that existing music video datasets provide the needed (video, music) training pairs, but lack text descriptions of the music. This work addresses this challenge with the following three contributions. First, we propose a text-synthesis approach that relies on an analogy-based prompting procedure to generate natural language music descriptions from a large-scale language model (BLOOM-176B) given pre-trained music tagger outputs and a small number of human text descriptions. Second, we use these synthesized music descriptions to train a new trimodal model, which fuses text and video input representations to query music samples. For training, we introduce a text dropout regularization mechanism which we show is critical to model performance. Our model design allows for the retrieved music audio to agree with the two input modalities by matching visual style depicted in the video and musical genre, mood, or instrumentation described in the natural language query. Third, to evaluate our approach, we collect a testing dataset for our problem by annotating a subset of 4k clips from the YT8M-MusicVideo dataset with natural language music descriptions which we make publicly available. We show that our approach can match or exceed the performance of prior methods on video-to-music retrieval while significantly improving retrieval accuracy when using text guidance.

Recomendación de música guiada por lenguaje para video mediante analogías de prompts

Language-Guided Music Recommendation for Video via Prompt Analogies

Resumen

Support