ChatPaper.aiChatPaper

Опишите то, что видите, с помощью мультимодальных больших языковых моделей для улучшения рекомендаций видео.

Describe What You See with Multimodal Large Language Models to Enhance Video Recommendations

August 13, 2025
Авторы: Marco De Nadai, Andreas Damianou, Mounia Lalmas
cs.AI

Аннотация

Существующие системы рекомендаций видео в основном полагаются на метаданные, заданные пользователем, или на низкоуровневые визуальные и акустические сигналы, извлеченные специализированными кодировщиками. Эти низкоуровневые признаки описывают то, что появляется на экране, но упускают более глубокую семантику, такую как намерение, юмор и знания о мире, которые делают ролики значимыми для зрителей. Например, является ли 30-секундный ролик просто певцом на крыше или ироничной пародией, снятой среди каменных столбов Каппадокии в Турции? Такие различия критически важны для персонализированных рекомендаций, но остаются невидимыми для традиционных процессов кодирования. В данной статье мы представляем простую, независимую от системы рекомендаций структуру без тонкой настройки, которая внедряет высокоуровневую семантику в процесс рекомендаций, используя готовую Мультимодальную Большую Языковую Модель (MLLM) для создания богатого описания каждого ролика на естественном языке (например, "пародия на супергероя с комедийными драками и оркестровыми акцентами"), устраняя разрыв между исходным контентом и намерениями пользователя. Мы используем выходные данные MLLM с современным текстовым кодировщиком и передаем их в стандартные коллаборативные, контентно-ориентированные и генеративные рекомендательные системы. На наборе данных MicroLens-100K, который имитирует взаимодействия пользователей с видео в стиле TikTok, наша структура стабильно превосходит традиционные видео-, аудио- и метаданные признаки в пяти репрезентативных моделях. Наши результаты подчеркивают перспективность использования MLLM в качестве динамических экстракторов знаний для создания более осведомленных о намерениях рекомендательных систем для видео.
English
Existing video recommender systems rely primarily on user-defined metadata or on low-level visual and acoustic signals extracted by specialised encoders. These low-level features describe what appears on the screen but miss deeper semantics such as intent, humour, and world knowledge that make clips resonate with viewers. For example, is a 30-second clip simply a singer on a rooftop, or an ironic parody filmed amid the fairy chimneys of Cappadocia, Turkey? Such distinctions are critical to personalised recommendations yet remain invisible to traditional encoding pipelines. In this paper, we introduce a simple, recommendation system-agnostic zero-finetuning framework that injects high-level semantics into the recommendation pipeline by prompting an off-the-shelf Multimodal Large Language Model (MLLM) to summarise each clip into a rich natural-language description (e.g. "a superhero parody with slapstick fights and orchestral stabs"), bridging the gap between raw content and user intent. We use MLLM output with a state-of-the-art text encoder and feed it into standard collaborative, content-based, and generative recommenders. On the MicroLens-100K dataset, which emulates user interactions with TikTok-style videos, our framework consistently surpasses conventional video, audio, and metadata features in five representative models. Our findings highlight the promise of leveraging MLLMs as on-the-fly knowledge extractors to build more intent-aware video recommenders.
PDF43August 20, 2025