ChatPaper.aiChatPaper

Beschreiben Sie, was Sie sehen, mit multimodalen großen Sprachmodellen, um Videoempfehlungen zu verbessern

Describe What You See with Multimodal Large Language Models to Enhance Video Recommendations

August 13, 2025
papers.authors: Marco De Nadai, Andreas Damianou, Mounia Lalmas
cs.AI

papers.abstract

Bestehende Videoempfehlungssysteme stützen sich hauptsächlich auf benutzerdefinierte Metadaten oder auf niedrigstufige visuelle und akustische Signale, die von spezialisierten Encodern extrahiert werden. Diese niedrigstufigen Merkmale beschreiben, was auf dem Bildschirm zu sehen ist, erfassen jedoch tiefere Semantik wie Absicht, Humor und Weltwissen, die Clips für Zuschauer ansprechend machen. Zum Beispiel: Ist ein 30-Sekunden-Clip einfach nur ein Sänger auf einem Dach, oder eine ironische Parodie, die zwischen den Feenkaminen von Kappadokien in der Türkei gedreht wurde? Solche Unterscheidungen sind entscheidend für personalisierte Empfehlungen, bleiben jedoch für traditionelle Encoding-Pipelines unsichtbar. In diesem Artikel stellen wir ein einfaches, empfehlungssystem-agnostisches Zero-Finetuning-Framework vor, das hochstufige Semantik in die Empfehlungspipeline einfügt, indem ein gebrauchsfertiges Multimodales Großes Sprachmodell (MLLM) dazu aufgefordert wird, jeden Clip in eine umfangreiche natürliche Sprachbeschreibung zusammenzufassen (z. B. „eine Superhelden-Parodie mit Slapstick-Kämpfen und orchestralen Einwürfen“), wodurch die Lücke zwischen Rohinhalt und Benutzerabsicht überbrückt wird. Wir verwenden die MLLM-Ausgabe mit einem modernen Text-Encoder und speisen sie in standardmäßige kollaborative, inhaltsbasierte und generative Empfehlungssysteme ein. Auf dem MicroLens-100K-Datensatz, der Benutzerinteraktionen mit TikTok-ähnlichen Videos nachahmt, übertrifft unser Framework durchweg konventionelle Video-, Audio- und Metadaten-Merkmale in fünf repräsentativen Modellen. Unsere Ergebnisse unterstreichen das Potenzial, MLLMs als spontane Wissensextraktoren zu nutzen, um absichtsbewusstere Videoempfehlungssysteme zu entwickeln.
English
Existing video recommender systems rely primarily on user-defined metadata or on low-level visual and acoustic signals extracted by specialised encoders. These low-level features describe what appears on the screen but miss deeper semantics such as intent, humour, and world knowledge that make clips resonate with viewers. For example, is a 30-second clip simply a singer on a rooftop, or an ironic parody filmed amid the fairy chimneys of Cappadocia, Turkey? Such distinctions are critical to personalised recommendations yet remain invisible to traditional encoding pipelines. In this paper, we introduce a simple, recommendation system-agnostic zero-finetuning framework that injects high-level semantics into the recommendation pipeline by prompting an off-the-shelf Multimodal Large Language Model (MLLM) to summarise each clip into a rich natural-language description (e.g. "a superhero parody with slapstick fights and orchestral stabs"), bridging the gap between raw content and user intent. We use MLLM output with a state-of-the-art text encoder and feed it into standard collaborative, content-based, and generative recommenders. On the MicroLens-100K dataset, which emulates user interactions with TikTok-style videos, our framework consistently surpasses conventional video, audio, and metadata features in five representative models. Our findings highlight the promise of leveraging MLLMs as on-the-fly knowledge extractors to build more intent-aware video recommenders.
PDF43August 20, 2025