Опишите то, что видите, с помощью мультимодальных больших языковых моделей для улучшения рекомендаций видео.
Describe What You See with Multimodal Large Language Models to Enhance Video Recommendations
August 13, 2025
Авторы: Marco De Nadai, Andreas Damianou, Mounia Lalmas
cs.AI
Аннотация
Существующие системы рекомендаций видео в основном полагаются на метаданные, заданные пользователем, или на низкоуровневые визуальные и акустические сигналы, извлеченные специализированными кодировщиками. Эти низкоуровневые признаки описывают то, что появляется на экране, но упускают более глубокую семантику, такую как намерение, юмор и знания о мире, которые делают ролики значимыми для зрителей. Например, является ли 30-секундный ролик просто певцом на крыше или ироничной пародией, снятой среди каменных столбов Каппадокии в Турции? Такие различия критически важны для персонализированных рекомендаций, но остаются невидимыми для традиционных процессов кодирования. В данной статье мы представляем простую, независимую от системы рекомендаций структуру без тонкой настройки, которая внедряет высокоуровневую семантику в процесс рекомендаций, используя готовую Мультимодальную Большую Языковую Модель (MLLM) для создания богатого описания каждого ролика на естественном языке (например, "пародия на супергероя с комедийными драками и оркестровыми акцентами"), устраняя разрыв между исходным контентом и намерениями пользователя. Мы используем выходные данные MLLM с современным текстовым кодировщиком и передаем их в стандартные коллаборативные, контентно-ориентированные и генеративные рекомендательные системы. На наборе данных MicroLens-100K, который имитирует взаимодействия пользователей с видео в стиле TikTok, наша структура стабильно превосходит традиционные видео-, аудио- и метаданные признаки в пяти репрезентативных моделях. Наши результаты подчеркивают перспективность использования MLLM в качестве динамических экстракторов знаний для создания более осведомленных о намерениях рекомендательных систем для видео.
English
Existing video recommender systems rely primarily on user-defined metadata or
on low-level visual and acoustic signals extracted by specialised encoders.
These low-level features describe what appears on the screen but miss deeper
semantics such as intent, humour, and world knowledge that make clips resonate
with viewers. For example, is a 30-second clip simply a singer on a rooftop, or
an ironic parody filmed amid the fairy chimneys of Cappadocia, Turkey? Such
distinctions are critical to personalised recommendations yet remain invisible
to traditional encoding pipelines. In this paper, we introduce a simple,
recommendation system-agnostic zero-finetuning framework that injects
high-level semantics into the recommendation pipeline by prompting an
off-the-shelf Multimodal Large Language Model (MLLM) to summarise each clip
into a rich natural-language description (e.g. "a superhero parody with
slapstick fights and orchestral stabs"), bridging the gap between raw content
and user intent. We use MLLM output with a state-of-the-art text encoder and
feed it into standard collaborative, content-based, and generative
recommenders. On the MicroLens-100K dataset, which emulates user interactions
with TikTok-style videos, our framework consistently surpasses conventional
video, audio, and metadata features in five representative models. Our findings
highlight the promise of leveraging MLLMs as on-the-fly knowledge extractors to
build more intent-aware video recommenders.