Sistema de recomendación musical multimodal utilizando LLMs

Resumen

Los sistemas de recomendación musical suelen tratar las canciones como tokens opacos, basándose en historiales de interacción colaborativa que ignoran el contenido semántico o acústico. Trabajos previos han explorado enfoques aumentados con LLM, multimodales y mejorados con texto para la recomendación secuencial, y aunque algunos métodos combinan parcialmente señales semánticas, acústicas o de participación, ninguno modela conjuntamente las tres dentro de un marco unificado de razonamiento secuencial basado en LLM que fundamente las recomendaciones en el contenido real de las canciones. En este trabajo, proponemos un marco multimodal para la recomendación musical basada en sesiones que enriquece el conjunto de datos LastFM-1K con tres señales complementarias: (1) incrustaciones de audio y letras extraídas mediante modelos preentrenados de representación musical y textual, (2) metadatos semánticos generados por LLM utilizando el esquema de anotación MGPHot, y (3) ratios de finalización de escucha. Adoptamos el marco E4SRec extendiéndolo con características multimodales y diferentes codificadores de identificadores de ítems, incluyendo SASRec, BERT4Rec y GRU4Rec. Además, extendemos la opción de backbone LLM con LLaMa-2-13B, Qwen2.5-7B-Instruct y LLaMa-3-70B tanto en configuraciones de cero disparos como de ajuste fino. Nuestros experimentos muestran que la integración de características basadas en contenido mejora las líneas base de solo ID hasta en un 95% en términos de Recall y un 79% en términos de NDCG. Además, nuestros experimentos muestran que la fusión multimodal ingenua no siempre produce mejoras aditivas, lo que destaca los desafíos en la integración entre modalidades. Publicamos un banco de pruebas multimodal a gran escala para la recomendación musical.

English

Music recommendation systems typically treat songs as opaque tokens, relying on collaborative interaction histories which overlooks semantic or acoustic content. Prior work has explored LLM-augmented, multimodal, and text-enhanced approaches to sequential recommendation, and while some methods partially combine semantic, acoustic, or engagement signals, none jointly model all three within a unified LLM-based sequential reasoning framework that grounds recommendations in actual song content. In this work, we propose a multimodal framework for session-based music recommendation that enriches the LastFM-1K dataset with three complementary signals: (1) audio and lyric embeddings extracted using pretrained music and text representation models, (2) LLM-generated semantic metadata using the MGPHot annotation schema, and (3) listening completion ratios. We adopt the E4SRec framework by extending it with multimodal features and different item ID encoder backbones, including SASRec, BERT4Rec, and GRU4Rec. We further extend the LLM backbone option with LLaMa-2-13B, Qwen2.5-7B-Instruct, and LLaMa-3-70B in both zero-shot and fine-tuned settings. Our experiments show that integrating content-based features improves over ID-only baselines up to 95% in terms of Recall and 79% in terms of NDCG. Moreover, our experiments show that naive multimodal fusion does not always yield additive improvements, highlighting challenges in cross-modal integration. We release a large-scale multimodal benchmark for music recommendation.