ChatPaper.aiChatPaper

Descreva o que você vê com modelos de linguagem multimodal de grande escala para aprimorar recomendações de vídeo.

Describe What You See with Multimodal Large Language Models to Enhance Video Recommendations

August 13, 2025
Autores: Marco De Nadai, Andreas Damianou, Mounia Lalmas
cs.AI

Resumo

Os sistemas de recomendação de vídeo existentes dependem principalmente de metadados definidos pelo usuário ou de sinais visuais e acústicos de baixo nível extraídos por codificadores especializados. Esses recursos de baixo nível descrevem o que aparece na tela, mas perdem semânticas mais profundas, como intenção, humor e conhecimento do mundo, que fazem os clipes ressoarem com os espectadores. Por exemplo, um clipe de 30 segundos é simplesmente um cantor em um telhado ou uma paródia irônica filmada entre as chaminés de fadas da Capadócia, na Turquia? Tais distinções são críticas para recomendações personalizadas, mas permanecem invisíveis para os pipelines de codificação tradicionais. Neste artigo, introduzimos uma estrutura simples e agnóstica ao sistema de recomendação, sem necessidade de ajuste fino, que injeta semânticas de alto nível no pipeline de recomendação ao solicitar que um Modelo de Linguagem Multimodal (MLLM) pronto para uso resuma cada clipe em uma descrição rica em linguagem natural (por exemplo, "uma paródia de super-herói com lutas cômicas e stabs orquestrais"), preenchendo a lacuna entre o conteúdo bruto e a intenção do usuário. Utilizamos a saída do MLLM com um codificador de texto de última geração e a alimentamos em sistemas de recomendação colaborativos, baseados em conteúdo e generativos padrão. No conjunto de dados MicroLens-100K, que simula interações do usuário com vídeos no estilo TikTok, nossa estrutura supera consistentemente os recursos convencionais de vídeo, áudio e metadados em cinco modelos representativos. Nossos resultados destacam o potencial de aproveitar MLLMs como extratores de conhecimento em tempo real para construir sistemas de recomendação de vídeo mais conscientes da intenção do usuário.
English
Existing video recommender systems rely primarily on user-defined metadata or on low-level visual and acoustic signals extracted by specialised encoders. These low-level features describe what appears on the screen but miss deeper semantics such as intent, humour, and world knowledge that make clips resonate with viewers. For example, is a 30-second clip simply a singer on a rooftop, or an ironic parody filmed amid the fairy chimneys of Cappadocia, Turkey? Such distinctions are critical to personalised recommendations yet remain invisible to traditional encoding pipelines. In this paper, we introduce a simple, recommendation system-agnostic zero-finetuning framework that injects high-level semantics into the recommendation pipeline by prompting an off-the-shelf Multimodal Large Language Model (MLLM) to summarise each clip into a rich natural-language description (e.g. "a superhero parody with slapstick fights and orchestral stabs"), bridging the gap between raw content and user intent. We use MLLM output with a state-of-the-art text encoder and feed it into standard collaborative, content-based, and generative recommenders. On the MicroLens-100K dataset, which emulates user interactions with TikTok-style videos, our framework consistently surpasses conventional video, audio, and metadata features in five representative models. Our findings highlight the promise of leveraging MLLMs as on-the-fly knowledge extractors to build more intent-aware video recommenders.
PDF57August 20, 2025