Beschrijf Wat Je Ziet met Multimodale Grote Taalmodellen om Videoadvies te Verbeteren
Describe What You See with Multimodal Large Language Models to Enhance Video Recommendations
August 13, 2025
Auteurs: Marco De Nadai, Andreas Damianou, Mounia Lalmas
cs.AI
Samenvatting
Bestaande videorecommendatiesystemen vertrouwen voornamelijk op door gebruikers gedefinieerde metadata of op laagniveau visuele en akoestische signalen die door gespecialiseerde encoders worden geëxtraheerd. Deze laagniveau kenmerken beschrijven wat er op het scherm te zien is, maar missen diepere semantiek zoals intentie, humor en wereldkennis die clips betekenisvol maken voor kijkers. Is een clip van 30 seconden bijvoorbeeld simpelweg een zanger op een dak, of een ironische parodie gefilmd tussen de feeënschoorstenen van Cappadocië, Turkije? Dergelijke onderscheiden zijn cruciaal voor gepersonaliseerde aanbevelingen, maar blijven onzichtbaar voor traditionele encoderingspijplijnen. In dit artikel introduceren we een eenvoudig, aanbevelingssysteem-agnostisch zero-finetuning raamwerk dat hoogwaardige semantiek injecteert in de aanbevelingspijplijn door een kant-en-klare Multimodale Grote Taal Model (MLLM) te vragen om elke clip samen te vatten in een rijke natuurlijke taal beschrijving (bijv. "een superheldenparodie met slapstick gevechten en orkestrale steken"), waardoor de kloof tussen ruwe inhoud en gebruikersintentie wordt overbrugd. We gebruiken MLLM-output met een state-of-the-art tekstencoder en voeren deze in standaard collaboratieve, inhoudsgebaseerde en generatieve aanbevelingssystemen. Op de MicroLens-100K dataset, die gebruikersinteracties met TikTok-stijl video's nabootst, overtreft ons raamwerk consequent conventionele video-, audio- en metadata-kenmerken in vijf representatieve modellen. Onze bevindingen benadrukken de belofte van het benutten van MLLM's als on-the-fly kennis extractors om meer intentiebewuste videorecommendatiesystemen te bouwen.
English
Existing video recommender systems rely primarily on user-defined metadata or
on low-level visual and acoustic signals extracted by specialised encoders.
These low-level features describe what appears on the screen but miss deeper
semantics such as intent, humour, and world knowledge that make clips resonate
with viewers. For example, is a 30-second clip simply a singer on a rooftop, or
an ironic parody filmed amid the fairy chimneys of Cappadocia, Turkey? Such
distinctions are critical to personalised recommendations yet remain invisible
to traditional encoding pipelines. In this paper, we introduce a simple,
recommendation system-agnostic zero-finetuning framework that injects
high-level semantics into the recommendation pipeline by prompting an
off-the-shelf Multimodal Large Language Model (MLLM) to summarise each clip
into a rich natural-language description (e.g. "a superhero parody with
slapstick fights and orchestral stabs"), bridging the gap between raw content
and user intent. We use MLLM output with a state-of-the-art text encoder and
feed it into standard collaborative, content-based, and generative
recommenders. On the MicroLens-100K dataset, which emulates user interactions
with TikTok-style videos, our framework consistently surpasses conventional
video, audio, and metadata features in five representative models. Our findings
highlight the promise of leveraging MLLMs as on-the-fly knowledge extractors to
build more intent-aware video recommenders.