ChatPaper.aiChatPaper

Décrivez ce que vous voyez avec des modèles de langage multimodaux de grande taille pour améliorer les recommandations vidéo

Describe What You See with Multimodal Large Language Models to Enhance Video Recommendations

August 13, 2025
papers.authors: Marco De Nadai, Andreas Damianou, Mounia Lalmas
cs.AI

papers.abstract

Les systèmes de recommandation vidéo existants s'appuient principalement sur des métadonnées définies par l'utilisateur ou sur des signaux visuels et acoustiques de bas niveau extraits par des encodeurs spécialisés. Ces caractéristiques de bas niveau décrivent ce qui apparaît à l'écran mais manquent de sémantiques plus profondes telles que l'intention, l'humour et les connaissances générales qui rendent les clips résonnants pour les spectateurs. Par exemple, un clip de 30 secondes est-il simplement un chanteur sur un toit, ou une parodie ironique filmée parmi les cheminées de fées de Cappadoce, en Turquie ? Ces distinctions sont cruciales pour des recommandations personnalisées, mais restent invisibles pour les pipelines d'encodage traditionnels. Dans cet article, nous introduisons un cadre simple et indépendant du système de recommandation, sans ajustement fin, qui injecte des sémantiques de haut niveau dans le pipeline de recommandation en incitant un modèle de langage multimodal (MLLM) prêt à l'emploi à résumer chaque clip en une description riche en langage naturel (par exemple, "une parodie de super-héros avec des combats burlesques et des coups d'orchestre"), comblant ainsi l'écart entre le contenu brut et l'intention de l'utilisateur. Nous utilisons la sortie du MLLM avec un encodeur de texte de pointe et l'intégrons dans des systèmes de recommandation standards collaboratifs, basés sur le contenu et génératifs. Sur le jeu de données MicroLens-100K, qui simule les interactions des utilisateurs avec des vidéos de style TikTok, notre cadre surpasse systématiquement les caractéristiques vidéo, audio et métadonnées conventionnelles dans cinq modèles représentatifs. Nos résultats mettent en évidence le potentiel d'exploiter les MLLM comme extracteurs de connaissances à la volée pour construire des systèmes de recommandation vidéo plus conscients de l'intention.
English
Existing video recommender systems rely primarily on user-defined metadata or on low-level visual and acoustic signals extracted by specialised encoders. These low-level features describe what appears on the screen but miss deeper semantics such as intent, humour, and world knowledge that make clips resonate with viewers. For example, is a 30-second clip simply a singer on a rooftop, or an ironic parody filmed amid the fairy chimneys of Cappadocia, Turkey? Such distinctions are critical to personalised recommendations yet remain invisible to traditional encoding pipelines. In this paper, we introduce a simple, recommendation system-agnostic zero-finetuning framework that injects high-level semantics into the recommendation pipeline by prompting an off-the-shelf Multimodal Large Language Model (MLLM) to summarise each clip into a rich natural-language description (e.g. "a superhero parody with slapstick fights and orchestral stabs"), bridging the gap between raw content and user intent. We use MLLM output with a state-of-the-art text encoder and feed it into standard collaborative, content-based, and generative recommenders. On the MicroLens-100K dataset, which emulates user interactions with TikTok-style videos, our framework consistently surpasses conventional video, audio, and metadata features in five representative models. Our findings highlight the promise of leveraging MLLMs as on-the-fly knowledge extractors to build more intent-aware video recommenders.
PDF43August 20, 2025