ChatPaper.aiChatPaper

Рекомендация музыки для видео с использованием языковых подсказок через аналогии промптов

Language-Guided Music Recommendation for Video via Prompt Analogies

June 15, 2023
Авторы: Daniel McKee, Justin Salamon, Josef Sivic, Bryan Russell
cs.AI

Аннотация

Мы предлагаем метод рекомендации музыки для входного видео, позволяющий пользователю направлять выбор музыки с помощью свободного текста на естественном языке. Ключевая сложность в данной постановке задачи заключается в том, что существующие наборы данных музыкальных видео предоставляют необходимые пары (видео, музыка) для обучения, но не содержат текстовых описаний музыки. В данной работе мы решаем эту проблему с помощью трех основных вкладов. Во-первых, мы предлагаем подход к синтезу текста, основанный на процедуре аналогий, для генерации описаний музыки на естественном языке с использованием крупномасштабной языковой модели (BLOOM-176B) на основе выходных данных предобученного классификатора музыкальных тегов и небольшого количества текстовых описаний, созданных человеком. Во-вторых, мы используем эти синтезированные описания для обучения новой тримодальной модели, которая объединяет текстовые и видеовходные представления для поиска музыкальных образцов. Для обучения мы вводим механизм регуляризации с выпадением текста, который, как мы показываем, критически важен для производительности модели. Наша модель позволяет извлекаемой музыкальной аудиодорожке соответствовать двум входным модальностям, согласуясь с визуальным стилем, изображенным в видео, и музыкальным жанром, настроением или инструментарием, описанным в текстовом запросе. В-третьих, для оценки нашего подхода мы собираем тестовый набор данных для нашей задачи, аннотируя подмножество из 4 тысяч клипов из набора данных YT8M-MusicVideo текстовыми описаниями музыки на естественном языке, которые мы делаем общедоступными. Мы показываем, что наш подход может соответствовать или превосходить производительность предыдущих методов в задаче поиска музыки по видео, при этом значительно улучшая точность поиска при использовании текстового руководства.
English
We propose a method to recommend music for an input video while allowing a user to guide music selection with free-form natural language. A key challenge of this problem setting is that existing music video datasets provide the needed (video, music) training pairs, but lack text descriptions of the music. This work addresses this challenge with the following three contributions. First, we propose a text-synthesis approach that relies on an analogy-based prompting procedure to generate natural language music descriptions from a large-scale language model (BLOOM-176B) given pre-trained music tagger outputs and a small number of human text descriptions. Second, we use these synthesized music descriptions to train a new trimodal model, which fuses text and video input representations to query music samples. For training, we introduce a text dropout regularization mechanism which we show is critical to model performance. Our model design allows for the retrieved music audio to agree with the two input modalities by matching visual style depicted in the video and musical genre, mood, or instrumentation described in the natural language query. Third, to evaluate our approach, we collect a testing dataset for our problem by annotating a subset of 4k clips from the YT8M-MusicVideo dataset with natural language music descriptions which we make publicly available. We show that our approach can match or exceed the performance of prior methods on video-to-music retrieval while significantly improving retrieval accuracy when using text guidance.
PDF80December 15, 2024