Describe lo que ves con modelos de lenguaje multimodal de gran escala para mejorar las recomendaciones de video.
Describe What You See with Multimodal Large Language Models to Enhance Video Recommendations
August 13, 2025
Autores: Marco De Nadai, Andreas Damianou, Mounia Lalmas
cs.AI
Resumen
Los sistemas de recomendación de videos existentes dependen principalmente de metadatos definidos por el usuario o de señales visuales y acústicas de bajo nivel extraídas por codificadores especializados. Estas características de bajo nivel describen lo que aparece en la pantalla, pero pasan por alto semánticas más profundas, como la intención, el humor y el conocimiento del mundo, que hacen que los clips resuenen con los espectadores. Por ejemplo, ¿es un clip de 30 segundos simplemente un cantante en una azotea, o una parodia irónica filmada entre las chimeneas de hadas de Capadocia, Turquía? Tales distinciones son críticas para las recomendaciones personalizadas, pero permanecen invisibles para los pipelines de codificación tradicionales. En este artículo, presentamos un marco simple y agnóstico al sistema de recomendación, sin necesidad de ajuste fino, que inyecta semánticas de alto nivel en el pipeline de recomendación al solicitar a un Modelo de Lenguaje Multimodal (MLLM) preentrenado que resuma cada clip en una descripción en lenguaje natural rica (por ejemplo, "una parodia de superhéroes con peleas cómicas y golpes orquestales"), cerrando la brecha entre el contenido crudo y la intención del usuario. Utilizamos la salida del MLLM con un codificador de texto de última generación y la alimentamos en recomendadores estándar colaborativos, basados en contenido y generativos. En el conjunto de datos MicroLens-100K, que emula las interacciones de los usuarios con videos al estilo de TikTok, nuestro marco supera consistentemente las características convencionales de video, audio y metadatos en cinco modelos representativos. Nuestros hallazgos resaltan la promesa de aprovechar los MLLMs como extractores de conocimiento en tiempo real para construir recomendadores de videos más conscientes de la intención.
English
Existing video recommender systems rely primarily on user-defined metadata or
on low-level visual and acoustic signals extracted by specialised encoders.
These low-level features describe what appears on the screen but miss deeper
semantics such as intent, humour, and world knowledge that make clips resonate
with viewers. For example, is a 30-second clip simply a singer on a rooftop, or
an ironic parody filmed amid the fairy chimneys of Cappadocia, Turkey? Such
distinctions are critical to personalised recommendations yet remain invisible
to traditional encoding pipelines. In this paper, we introduce a simple,
recommendation system-agnostic zero-finetuning framework that injects
high-level semantics into the recommendation pipeline by prompting an
off-the-shelf Multimodal Large Language Model (MLLM) to summarise each clip
into a rich natural-language description (e.g. "a superhero parody with
slapstick fights and orchestral stabs"), bridging the gap between raw content
and user intent. We use MLLM output with a state-of-the-art text encoder and
feed it into standard collaborative, content-based, and generative
recommenders. On the MicroLens-100K dataset, which emulates user interactions
with TikTok-style videos, our framework consistently surpasses conventional
video, audio, and metadata features in five representative models. Our findings
highlight the promise of leveraging MLLMs as on-the-fly knowledge extractors to
build more intent-aware video recommenders.