Sprachgesteuerte Musikempfehlung für Videos über Prompt-Analogien

Zusammenfassung

Wir schlagen eine Methode vor, um Musik für ein Eingabevideo zu empfehlen, wobei der Benutzer die Musikauswahl mit freier natürlicher Sprache steuern kann. Eine zentrale Herausforderung in diesem Problemkontext besteht darin, dass bestehende Musikvideo-Datensätze zwar die benötigten (Video, Musik)-Trainingspaare bereitstellen, jedoch Textbeschreibungen der Musik fehlen. Diese Arbeit adressiert diese Herausforderung mit den folgenden drei Beiträgen. Erstens schlagen wir einen Text-Synthese-Ansatz vor, der auf einem Analogie-basierten Prompting-Verfahren beruht, um natürliche Sprachbeschreibungen der Musik aus einem großskaligen Sprachmodell (BLOOM-176B) zu generieren, basierend auf den Ausgaben eines vortrainierten Musik-Taggers und einer kleinen Anzahl menschlicher Textbeschreibungen. Zweitens verwenden wir diese synthetisierten Musikbeschreibungen, um ein neues trimodales Modell zu trainieren, das Text- und Video-Eingabedarstellungen fusioniert, um Musikbeispiele abzufragen. Für das Training führen wir einen Text-Dropout-Regularisierungsmechanismus ein, den wir als entscheidend für die Modellleistung zeigen. Unser Modelldesign ermöglicht es, dass die abgerufene Musik mit den beiden Eingabemodalitäten übereinstimmt, indem der visuelle Stil im Video und das musikalische Genre, die Stimmung oder die Instrumentierung, wie in der natürlichen Sprachabfrage beschrieben, abgeglichen werden. Drittens sammeln wir zur Bewertung unseres Ansatzes einen Testdatensatz für unser Problem, indem wir eine Teilmenge von 4.000 Clips aus dem YT8M-MusicVideo-Datensatz mit natürlichen Sprachbeschreibungen der Musik annotieren, die wir öffentlich zugänglich machen. Wir zeigen, dass unser Ansatz die Leistung früherer Methoden bei der Video-zu-Musik-Retrieval erreichen oder übertreffen kann, während die Retrieval-Genauigkeit bei der Verwendung von Textführung signifikant verbessert wird.

English

We propose a method to recommend music for an input video while allowing a user to guide music selection with free-form natural language. A key challenge of this problem setting is that existing music video datasets provide the needed (video, music) training pairs, but lack text descriptions of the music. This work addresses this challenge with the following three contributions. First, we propose a text-synthesis approach that relies on an analogy-based prompting procedure to generate natural language music descriptions from a large-scale language model (BLOOM-176B) given pre-trained music tagger outputs and a small number of human text descriptions. Second, we use these synthesized music descriptions to train a new trimodal model, which fuses text and video input representations to query music samples. For training, we introduce a text dropout regularization mechanism which we show is critical to model performance. Our model design allows for the retrieved music audio to agree with the two input modalities by matching visual style depicted in the video and musical genre, mood, or instrumentation described in the natural language query. Third, to evaluate our approach, we collect a testing dataset for our problem by annotating a subset of 4k clips from the YT8M-MusicVideo dataset with natural language music descriptions which we make publicly available. We show that our approach can match or exceed the performance of prior methods on video-to-music retrieval while significantly improving retrieval accuracy when using text guidance.

Sprachgesteuerte Musikempfehlung für Videos über Prompt-Analogien

Language-Guided Music Recommendation for Video via Prompt Analogies

Zusammenfassung

Support