マルチモーダル大規模言語モデルを用いた視覚情報の記述による動画推薦の強化
Describe What You See with Multimodal Large Language Models to Enhance Video Recommendations
August 13, 2025
著者: Marco De Nadai, Andreas Damianou, Mounia Lalmas
cs.AI
要旨
既存の動画推薦システムは、主にユーザー定義のメタデータや、専門のエンコーダーによって抽出された低レベルの視覚・音響信号に依存しています。これらの低レベルな特徴量は、画面上に表示される内容を記述するものの、視聴者に共感を呼ぶ意図、ユーモア、世界観といった深い意味論を見落としています。例えば、30秒のクリップが単なる屋上での歌手なのか、それともトルコのカッパドキアの妖精の煙突を背景にした皮肉なパロディなのか?このような区別はパーソナライズされた推薦において重要でありながら、従来のエンコーディングパイプラインでは見落とされています。本論文では、既存の推薦システムに依存しないシンプルなゼロファインチューニングフレームワークを提案します。このフレームワークは、オフ・ザ・シェルフのマルチモーダル大規模言語モデル(MLLM)を利用して、各クリップを豊かな自然言語記述(例:「スラップスティックな戦いとオーケストラの突き刺しを伴うスーパーヒーローパロディ」)に要約し、生のコンテンツとユーザーの意図の間のギャップを埋めます。MLLMの出力を最先端のテキストエンコーダーと組み合わせ、標準的な協調フィルタリング、コンテンツベース、生成型の推薦システムにフィードします。TikTokスタイルの動画とのユーザーインタラクションを模倣したMicroLens-100Kデータセットにおいて、我々のフレームワークは、5つの代表的なモデルで従来の動画、音声、メタデータの特徴量を一貫して上回りました。我々の研究結果は、MLLMをリアルタイムの知識抽出器として活用し、より意図を意識した動画推薦システムを構築する可能性を示しています。
English
Existing video recommender systems rely primarily on user-defined metadata or
on low-level visual and acoustic signals extracted by specialised encoders.
These low-level features describe what appears on the screen but miss deeper
semantics such as intent, humour, and world knowledge that make clips resonate
with viewers. For example, is a 30-second clip simply a singer on a rooftop, or
an ironic parody filmed amid the fairy chimneys of Cappadocia, Turkey? Such
distinctions are critical to personalised recommendations yet remain invisible
to traditional encoding pipelines. In this paper, we introduce a simple,
recommendation system-agnostic zero-finetuning framework that injects
high-level semantics into the recommendation pipeline by prompting an
off-the-shelf Multimodal Large Language Model (MLLM) to summarise each clip
into a rich natural-language description (e.g. "a superhero parody with
slapstick fights and orchestral stabs"), bridging the gap between raw content
and user intent. We use MLLM output with a state-of-the-art text encoder and
feed it into standard collaborative, content-based, and generative
recommenders. On the MicroLens-100K dataset, which emulates user interactions
with TikTok-style videos, our framework consistently surpasses conventional
video, audio, and metadata features in five representative models. Our findings
highlight the promise of leveraging MLLMs as on-the-fly knowledge extractors to
build more intent-aware video recommenders.