Système de recommandation musicale multimodal utilisant les LLMs

Résumé

Les systèmes de recommandation musicale traitent généralement les chansons comme des jetons opaques, s'appuyant sur des historiques d'interactions collaboratives qui négligent le contenu sémantique ou acoustique. Des travaux antérieurs ont exploré des approches augmentées par LLM, multimodales et enrichies par le texte pour la recommandation séquentielle, et bien que certaines méthodes combinent partiellement des signaux sémantiques, acoustiques ou d'engagement, aucune ne modélise conjointement les trois au sein d'un cadre de raisonnement séquentiel unifié basé sur LLM qui ancre les recommandations dans le contenu réel des chansons. Dans ce travail, nous proposons un cadre multimodal pour la recommandation musicale basée sur les sessions qui enrichit l'ensemble de données LastFM-1K avec trois signaux complémentaires : (1) des plongements audio et de paroles extraits à l'aide de modèles de représentation de musique et de texte pré-entraînés, (2) des métadonnées sémantiques générées par LLM en utilisant le schéma d'annotation MGPHot, et (3) des ratios d'écoute complète. Nous adoptons le cadre E4SRec en l'étendant avec des caractéristiques multimodales et différents backbones d'encodeur d'ID d'éléments, notamment SASRec, BERT4Rec et GRU4Rec. Nous étendons également l'option de backbone LLM avec LLaMa-2-13B, Qwen2.5-7B-Instruct et LLaMa-3-70B à la fois en mode zero-shot et en réglage fin. Nos expériences montrent que l'intégration de caractéristiques basées sur le contenu améliore les références basées uniquement sur les ID jusqu'à 95% en termes de Rappel et 79% en termes de NDCG. De plus, nos expériences montrent que la fusion multimodale naïve n'entraîne pas toujours des améliorations additives, soulignant les défis de l'intégration intermodale. Nous publions un benchmark multimodal à grande échelle pour la recommandation musicale.

English

Music recommendation systems typically treat songs as opaque tokens, relying on collaborative interaction histories which overlooks semantic or acoustic content. Prior work has explored LLM-augmented, multimodal, and text-enhanced approaches to sequential recommendation, and while some methods partially combine semantic, acoustic, or engagement signals, none jointly model all three within a unified LLM-based sequential reasoning framework that grounds recommendations in actual song content. In this work, we propose a multimodal framework for session-based music recommendation that enriches the LastFM-1K dataset with three complementary signals: (1) audio and lyric embeddings extracted using pretrained music and text representation models, (2) LLM-generated semantic metadata using the MGPHot annotation schema, and (3) listening completion ratios. We adopt the E4SRec framework by extending it with multimodal features and different item ID encoder backbones, including SASRec, BERT4Rec, and GRU4Rec. We further extend the LLM backbone option with LLaMa-2-13B, Qwen2.5-7B-Instruct, and LLaMa-3-70B in both zero-shot and fine-tuned settings. Our experiments show that integrating content-based features improves over ID-only baselines up to 95% in terms of Recall and 79% in terms of NDCG. Moreover, our experiments show that naive multimodal fusion does not always yield additive improvements, highlighting challenges in cross-modal integration. We release a large-scale multimodal benchmark for music recommendation.