Sprachgesteuerte Musikempfehlung für Videos über Prompt-Analogien
Language-Guided Music Recommendation for Video via Prompt Analogies
June 15, 2023
Autoren: Daniel McKee, Justin Salamon, Josef Sivic, Bryan Russell
cs.AI
Zusammenfassung
Wir schlagen eine Methode vor, um Musik für ein Eingabevideo zu empfehlen, wobei der Benutzer die Musikauswahl mit freier natürlicher Sprache steuern kann. Eine zentrale Herausforderung in diesem Problemkontext besteht darin, dass bestehende Musikvideo-Datensätze zwar die benötigten (Video, Musik)-Trainingspaare bereitstellen, jedoch Textbeschreibungen der Musik fehlen. Diese Arbeit adressiert diese Herausforderung mit den folgenden drei Beiträgen. Erstens schlagen wir einen Text-Synthese-Ansatz vor, der auf einem Analogie-basierten Prompting-Verfahren beruht, um natürliche Sprachbeschreibungen der Musik aus einem großskaligen Sprachmodell (BLOOM-176B) zu generieren, basierend auf den Ausgaben eines vortrainierten Musik-Taggers und einer kleinen Anzahl menschlicher Textbeschreibungen. Zweitens verwenden wir diese synthetisierten Musikbeschreibungen, um ein neues trimodales Modell zu trainieren, das Text- und Video-Eingabedarstellungen fusioniert, um Musikbeispiele abzufragen. Für das Training führen wir einen Text-Dropout-Regularisierungsmechanismus ein, den wir als entscheidend für die Modellleistung zeigen. Unser Modelldesign ermöglicht es, dass die abgerufene Musik mit den beiden Eingabemodalitäten übereinstimmt, indem der visuelle Stil im Video und das musikalische Genre, die Stimmung oder die Instrumentierung, wie in der natürlichen Sprachabfrage beschrieben, abgeglichen werden. Drittens sammeln wir zur Bewertung unseres Ansatzes einen Testdatensatz für unser Problem, indem wir eine Teilmenge von 4.000 Clips aus dem YT8M-MusicVideo-Datensatz mit natürlichen Sprachbeschreibungen der Musik annotieren, die wir öffentlich zugänglich machen. Wir zeigen, dass unser Ansatz die Leistung früherer Methoden bei der Video-zu-Musik-Retrieval erreichen oder übertreffen kann, während die Retrieval-Genauigkeit bei der Verwendung von Textführung signifikant verbessert wird.
English
We propose a method to recommend music for an input video while allowing a
user to guide music selection with free-form natural language. A key challenge
of this problem setting is that existing music video datasets provide the
needed (video, music) training pairs, but lack text descriptions of the music.
This work addresses this challenge with the following three contributions.
First, we propose a text-synthesis approach that relies on an analogy-based
prompting procedure to generate natural language music descriptions from a
large-scale language model (BLOOM-176B) given pre-trained music tagger outputs
and a small number of human text descriptions. Second, we use these synthesized
music descriptions to train a new trimodal model, which fuses text and video
input representations to query music samples. For training, we introduce a text
dropout regularization mechanism which we show is critical to model
performance. Our model design allows for the retrieved music audio to agree
with the two input modalities by matching visual style depicted in the video
and musical genre, mood, or instrumentation described in the natural language
query. Third, to evaluate our approach, we collect a testing dataset for our
problem by annotating a subset of 4k clips from the YT8M-MusicVideo dataset
with natural language music descriptions which we make publicly available. We
show that our approach can match or exceed the performance of prior methods on
video-to-music retrieval while significantly improving retrieval accuracy when
using text guidance.