ChatPaper.aiChatPaper

Descrivi ciò che vedi con modelli linguistici multimodali di grandi dimensioni per migliorare le raccomandazioni video

Describe What You See with Multimodal Large Language Models to Enhance Video Recommendations

August 13, 2025
Autori: Marco De Nadai, Andreas Damianou, Mounia Lalmas
cs.AI

Abstract

I sistemi di raccomandazione video esistenti si basano principalmente su metadati definiti dall'utente o su segnali visivi e acustici di basso livello estratti da encoder specializzati. Queste caratteristiche di basso livello descrivono ciò che appare sullo schermo, ma non catturano la semantica più profonda, come l'intenzione, l'umorismo e la conoscenza del mondo, che rendono i clip significativi per gli spettatori. Ad esempio, un clip di 30 secondi è semplicemente un cantante su un tetto o una parodia ironica girata tra i camini delle fate di Cappadocia, in Turchia? Queste distinzioni sono cruciali per le raccomandazioni personalizzate, ma rimangono invisibili alle pipeline di codifica tradizionali. In questo articolo, introduciamo un framework semplice e indipendente dal sistema di raccomandazione, senza necessità di fine-tuning, che inietta semantica di alto livello nella pipeline di raccomandazione utilizzando un modello linguistico multimodale (MLLM) preesistente per riassumere ogni clip in una descrizione ricca in linguaggio naturale (ad esempio, "una parodia di supereroi con combattimenti slapstick e stacchi orchestrali"), colmando il divario tra contenuto grezzo e intento dell'utente. Utilizziamo l'output dell'MLLM con un encoder di testo all'avanguardia e lo alimentiamo in raccomandatori standard collaborativi, basati sul contenuto e generativi. Sul dataset MicroLens-100K, che simula le interazioni degli utenti con video in stile TikTok, il nostro framework supera costantemente le caratteristiche video, audio e di metadati convenzionali in cinque modelli rappresentativi. I nostri risultati evidenziano il potenziale di sfruttare gli MLLM come estrattori di conoscenza in tempo reale per costruire raccomandatori video più consapevoli dell'intento.
English
Existing video recommender systems rely primarily on user-defined metadata or on low-level visual and acoustic signals extracted by specialised encoders. These low-level features describe what appears on the screen but miss deeper semantics such as intent, humour, and world knowledge that make clips resonate with viewers. For example, is a 30-second clip simply a singer on a rooftop, or an ironic parody filmed amid the fairy chimneys of Cappadocia, Turkey? Such distinctions are critical to personalised recommendations yet remain invisible to traditional encoding pipelines. In this paper, we introduce a simple, recommendation system-agnostic zero-finetuning framework that injects high-level semantics into the recommendation pipeline by prompting an off-the-shelf Multimodal Large Language Model (MLLM) to summarise each clip into a rich natural-language description (e.g. "a superhero parody with slapstick fights and orchestral stabs"), bridging the gap between raw content and user intent. We use MLLM output with a state-of-the-art text encoder and feed it into standard collaborative, content-based, and generative recommenders. On the MicroLens-100K dataset, which emulates user interactions with TikTok-style videos, our framework consistently surpasses conventional video, audio, and metadata features in five representative models. Our findings highlight the promise of leveraging MLLMs as on-the-fly knowledge extractors to build more intent-aware video recommenders.
PDF57August 20, 2025