Multimodales Musikempfehlungssystem mit LLMs

Zusammenfassung

Musikempfehlungssysteme behandeln Songs üblicherweise als undurchsichtige Token und stützen sich auf kollaborative Interaktionshistorien, die semantische oder akustische Inhalte außer Acht lassen. In früheren Arbeiten wurden LLM-gestützte, multimodale und textverbesserte Ansätze für die sequenzielle Empfehlung untersucht, und während einige Methoden semantische, akustische oder Interaktionssignale teilweise kombinieren, modelliert keine alle drei gemeinsam innerhalb eines einheitlichen, LLM-basierten sequenziellen Reasoning-Frameworks, das Empfehlungen auf den tatsächlichen Songinhalt gründet. In dieser Arbeit schlagen wir ein multimodales Framework für die sitzungsbasierte Musikempfehlung vor, das den LastFM-1K-Datensatz mit drei komplementären Signalen anreichert: (1) Audio- und Lyrik-Embeddings, die mit vortrainierten Musik- und Textrepräsentationsmodellen extrahiert werden, (2) LLM-generierte semantische Metadaten unter Verwendung des MGPHot-Annotationsschemas und (3) Hörvollständigkeitsraten. Wir übernehmen das E4SRec-Framework, indem wir es um multimodale Merkmale sowie verschiedene Item-ID-Encoder-Backbones – darunter SASRec, BERT4Rec und GRU4Rec – erweitern. Des Weiteren erweitern wir die LLM-Backbone-Option um LLaMa-2-13B, Qwen2.5-7B-Instruct und LLaMa-3-70B sowohl in Zero-Shot- als auch in Feintuning-Einstellungen. Unsere Experimente zeigen, dass die Integration inhaltsbasierter Merkmale die ID-basierten Baselines im Recall um bis zu 95 % und im NDCG um bis zu 79 % übertrifft. Darüber hinaus zeigen unsere Experimente, dass eine naive multimodale Fusion nicht immer additive Verbesserungen erzielt, was auf Herausforderungen bei der crossmodalen Integration hinweist. Wir veröffentlichen einen groß angelegten multimodalen Benchmark für die Musikempfehlung.

English

Music recommendation systems typically treat songs as opaque tokens, relying on collaborative interaction histories which overlooks semantic or acoustic content. Prior work has explored LLM-augmented, multimodal, and text-enhanced approaches to sequential recommendation, and while some methods partially combine semantic, acoustic, or engagement signals, none jointly model all three within a unified LLM-based sequential reasoning framework that grounds recommendations in actual song content. In this work, we propose a multimodal framework for session-based music recommendation that enriches the LastFM-1K dataset with three complementary signals: (1) audio and lyric embeddings extracted using pretrained music and text representation models, (2) LLM-generated semantic metadata using the MGPHot annotation schema, and (3) listening completion ratios. We adopt the E4SRec framework by extending it with multimodal features and different item ID encoder backbones, including SASRec, BERT4Rec, and GRU4Rec. We further extend the LLM backbone option with LLaMa-2-13B, Qwen2.5-7B-Instruct, and LLaMa-3-70B in both zero-shot and fine-tuned settings. Our experiments show that integrating content-based features improves over ID-only baselines up to 95% in terms of Recall and 79% in terms of NDCG. Moreover, our experiments show that naive multimodal fusion does not always yield additive improvements, highlighting challenges in cross-modal integration. We release a large-scale multimodal benchmark for music recommendation.