Мультимодальная система рекомендации музыки с использованием LLM

Аннотация

Системы музыкальных рекомендаций обычно рассматривают песни как непрозрачные токены, полагаясь на истории совместных взаимодействий, которые игнорируют семантическое или акустическое содержание. Предыдущие работы исследовали подходы к последовательным рекомендациям, дополненные LLM, мультимодальные и с усилением текста. Хотя некоторые методы частично комбинируют семантические, акустические сигналы или сигналы вовлеченности, ни один не моделирует совместно все три в рамках единого фреймворка последовательного рассуждения на основе LLM, который обосновывает рекомендации фактическим содержанием песен. В данной работе мы предлагаем мультимодальный фреймворк для сессионных музыкальных рекомендаций, который обогащает набор данных LastFM-1K тремя дополнительными сигналами: (1) аудио и текстовые эмбеддинги, извлеченные с помощью предварительно обученных моделей музыкальных и текстовых представлений, (2) семантические метаданные, сгенерированные LLM с использованием схемы аннотации MGPHot, и (3) коэффициенты завершения прослушивания. Мы адаптируем фреймворк E4SRec, расширяя его мультимодальными признаками и различными архитектурами кодировщиков идентификаторов элементов, включая SASRec, BERT4Rec и GRU4Rec. Мы также расширяем опцию LLM-архитектуры с помощью LLaMa-2-13B, Qwen2.5-7B-Instruct и LLaMa-3-70B в режимах как zero-shot, так и тонкой настройки. Наши эксперименты показывают, что интеграция признаков на основе содержимого улучшает базовые модели, использующие только идентификаторы, до 95% по показателю Recall и до 79% по показателю NDCG. Более того, наши эксперименты показывают, что наивная мультимодальная фузия не всегда приводит к аддитивным улучшениям, что подчеркивает сложности кросс-модальной интеграции. Мы публикуем крупномасштабный мультимодальный бенчмарк для музыкальных рекомендаций.

English

Music recommendation systems typically treat songs as opaque tokens, relying on collaborative interaction histories which overlooks semantic or acoustic content. Prior work has explored LLM-augmented, multimodal, and text-enhanced approaches to sequential recommendation, and while some methods partially combine semantic, acoustic, or engagement signals, none jointly model all three within a unified LLM-based sequential reasoning framework that grounds recommendations in actual song content. In this work, we propose a multimodal framework for session-based music recommendation that enriches the LastFM-1K dataset with three complementary signals: (1) audio and lyric embeddings extracted using pretrained music and text representation models, (2) LLM-generated semantic metadata using the MGPHot annotation schema, and (3) listening completion ratios. We adopt the E4SRec framework by extending it with multimodal features and different item ID encoder backbones, including SASRec, BERT4Rec, and GRU4Rec. We further extend the LLM backbone option with LLaMa-2-13B, Qwen2.5-7B-Instruct, and LLaMa-3-70B in both zero-shot and fine-tuned settings. Our experiments show that integrating content-based features improves over ID-only baselines up to 95% in terms of Recall and 79% in terms of NDCG. Moreover, our experiments show that naive multimodal fusion does not always yield additive improvements, highlighting challenges in cross-modal integration. We release a large-scale multimodal benchmark for music recommendation.