Sistema de Recomendação Musical Multimodal utilizando LLMs

Resumo

Sistemas de recomendação musical tipicamente tratam canções como tokens opacos, baseando-se em históricos de interação colaborativa que ignoram o conteúdo semântico ou acústico. Trabalhos anteriores exploraram abordagens aumentadas por LLM, multimodais e aprimoradas por texto para recomendação sequencial e, embora alguns métodos combinem parcialmente sinais semânticos, acústicos ou de engajamento, nenhum modela conjuntamente os três dentro de um quadro unificado de raciocínio sequencial baseado em LLM que fundamente as recomendações no conteúdo real das canções. Neste trabalho, propomos um quadro multimodal para recomendação musical baseada em sessão que enriquece o conjunto de dados LastFM-1K com três sinais complementares: (1) embeddings de áudio e letras extraídos usando modelos pré-treinados de representação musical e textual, (2) metadados semânticos gerados por LLM usando o esquema de anotação MGPHot e (3) taxas de conclusão de audição. Adotamos a estrutura E4SRec estendendo-a com características multimodais e diferentes backbones de codificação de IDs de itens, incluindo SASRec, BERT4Rec e GRU4Rec. Estendemos ainda a opção de backbone LLM com LLaMa-2-13B, Qwen2.5-7B-Instruct e LLaMa-3-70B em configurações zero-shot e fine-tuned. Nossos experimentos mostram que a integração de características baseadas em conteúdo melhora em até 95% em Recall e 79% em NDCG em relação às linhas de base apenas com IDs. Além disso, nossos experimentos mostram que a fusão multimodal ingênua nem sempre produz melhorias aditivas, destacando desafios na integração cross-modal. Disponibilizamos um benchmark multimodal em larga escala para recomendação musical.

English

Music recommendation systems typically treat songs as opaque tokens, relying on collaborative interaction histories which overlooks semantic or acoustic content. Prior work has explored LLM-augmented, multimodal, and text-enhanced approaches to sequential recommendation, and while some methods partially combine semantic, acoustic, or engagement signals, none jointly model all three within a unified LLM-based sequential reasoning framework that grounds recommendations in actual song content. In this work, we propose a multimodal framework for session-based music recommendation that enriches the LastFM-1K dataset with three complementary signals: (1) audio and lyric embeddings extracted using pretrained music and text representation models, (2) LLM-generated semantic metadata using the MGPHot annotation schema, and (3) listening completion ratios. We adopt the E4SRec framework by extending it with multimodal features and different item ID encoder backbones, including SASRec, BERT4Rec, and GRU4Rec. We further extend the LLM backbone option with LLaMa-2-13B, Qwen2.5-7B-Instruct, and LLaMa-3-70B in both zero-shot and fine-tuned settings. Our experiments show that integrating content-based features improves over ID-only baselines up to 95% in terms of Recall and 79% in terms of NDCG. Moreover, our experiments show that naive multimodal fusion does not always yield additive improvements, highlighting challenges in cross-modal integration. We release a large-scale multimodal benchmark for music recommendation.