Multimodaal muziekaanbevelingssysteem met behulp van grote taalmodellen

Samenvatting

Muziekaanbevelingssystemen behandelen nummers doorgaans als ondoorzichtige tokens, waarbij ze vertrouwen op gezamenlijke interactiegeschiedenissen die semantische of akoestische inhoud over het hoofd zien. Eerder werk heeft LLM-verrijkte, multimodale en tekstverrijkte benaderingen voor sequentiële aanbevelingen onderzocht, en hoewel sommige methoden semantische, akoestische of betrokkenheidssignalen gedeeltelijk combineren, modelleert geen enkele alle drie gezamenlijk binnen een verenigd LLM-gebaseerd sequentieel redeneerraamwerk dat aanbevelingen baseert op werkelijke nummerinhoud. In dit werk stellen we een multimodaal raamwerk voor voor sessiegebaseerde muziekaanbeveling dat de LastFM-1K-dataset verrijkt met drie complementaire signalen: (1) audio- en songtekst-embeddings geëxtraheerd met behulp van voorgetrainde muziek- en tekstrepresentatiemodellen, (2) door LLM gegenereerde semantische metadata met behulp van het MGPHot-annotatieschema, en (3) luistervoltooiingsratio's. We nemen het E4SRec-raamwerk over door het uit te breiden met multimodale kenmerken en verschillende item-ID-encoder-backbones, waaronder SASRec, BERT4Rec en GRU4Rec. We breiden de LLM-backbone-optie verder uit met LLaMa-2-13B, Qwen2.5-7B-Instruct en LLaMa-3-70B in zowel zero-shot als fijn afgestelde instellingen. Onze experimenten tonen aan dat het integreren van inhoudsgebaseerde kenmerken een verbetering oplevert van tot 95% in termen van Recall en 79% in termen van NDCG ten opzichte van alleen-ID-baselines. Bovendien tonen onze experimenten aan dat naïeve multimodale fusie niet altijd additieve verbeteringen oplevert, wat uitdagingen in cross-modale integratie benadrukt. We geven een grootschalige multimodale benchmark vrij voor muziekaanbeveling.

English

Music recommendation systems typically treat songs as opaque tokens, relying on collaborative interaction histories which overlooks semantic or acoustic content. Prior work has explored LLM-augmented, multimodal, and text-enhanced approaches to sequential recommendation, and while some methods partially combine semantic, acoustic, or engagement signals, none jointly model all three within a unified LLM-based sequential reasoning framework that grounds recommendations in actual song content. In this work, we propose a multimodal framework for session-based music recommendation that enriches the LastFM-1K dataset with three complementary signals: (1) audio and lyric embeddings extracted using pretrained music and text representation models, (2) LLM-generated semantic metadata using the MGPHot annotation schema, and (3) listening completion ratios. We adopt the E4SRec framework by extending it with multimodal features and different item ID encoder backbones, including SASRec, BERT4Rec, and GRU4Rec. We further extend the LLM backbone option with LLaMa-2-13B, Qwen2.5-7B-Instruct, and LLaMa-3-70B in both zero-shot and fine-tuned settings. Our experiments show that integrating content-based features improves over ID-only baselines up to 95% in terms of Recall and 79% in terms of NDCG. Moreover, our experiments show that naive multimodal fusion does not always yield additive improvements, highlighting challenges in cross-modal integration. We release a large-scale multimodal benchmark for music recommendation.