다중모드 대형 언어 모델을 활용해 시각 정보를 설명하여 비디오 추천 성능 향상하기
Describe What You See with Multimodal Large Language Models to Enhance Video Recommendations
August 13, 2025
저자: Marco De Nadai, Andreas Damianou, Mounia Lalmas
cs.AI
초록
기존의 비디오 추천 시스템은 주로 사용자 정의 메타데이터나 특수 인코더로 추출된 저수준의 시각 및 음향 신호에 의존해 왔습니다. 이러한 저수준 특징들은 화면에 나타나는 내용을 기술하지만, 클립이 시청자와 공감을 일으키게 하는 의도, 유머, 세계 지식과 같은 더 깊은 의미를 놓치고 있습니다. 예를 들어, 30초짜리 클립이 단순히 지붕 위에 있는 가수인지, 아니면 터키 카파도키아의 요정 굴뚝 배경에서 촬영된 아이러니한 패러디인지와 같은 구분은 개인화된 추천에 있어서는 매우 중요하지만, 전통적인 인코딩 파이프라인에서는 보이지 않습니다. 본 논문에서는 오프더셰프 멀티모달 대형 언어 모델(MLLM)을 활용하여 각 클립을 풍부한 자연어 설명(예: "슬랩스틱 싸움과 오케스트라 음악이 어우러진 슈퍼히어로 패러디")으로 요약함으로써, 원시 콘텐츠와 사용자 의도 간의 간극을 메우는 간단하고 추천 시스템에 독립적인 제로-파인튜닝 프레임워크를 소개합니다. 우리는 MLLM 출력을 최신 텍스트 인코더와 함께 사용하여 이를 표준 협업 필터링, 콘텐츠 기반, 생성형 추천 시스템에 입력합니다. TikTok 스타일의 비디오와의 사용자 상호작용을 모방한 MicroLens-100K 데이터셋에서, 우리의 프레임워크는 다섯 가지 대표적인 모델에서 기존의 비디오, 오디오, 메타데이터 특징을 지속적으로 능가했습니다. 우리의 연구 결과는 MLLM을 실시간 지식 추출기로 활용하여 더욱 의도 인식적인 비디오 추천 시스템을 구축할 가능성을 강조합니다.
English
Existing video recommender systems rely primarily on user-defined metadata or
on low-level visual and acoustic signals extracted by specialised encoders.
These low-level features describe what appears on the screen but miss deeper
semantics such as intent, humour, and world knowledge that make clips resonate
with viewers. For example, is a 30-second clip simply a singer on a rooftop, or
an ironic parody filmed amid the fairy chimneys of Cappadocia, Turkey? Such
distinctions are critical to personalised recommendations yet remain invisible
to traditional encoding pipelines. In this paper, we introduce a simple,
recommendation system-agnostic zero-finetuning framework that injects
high-level semantics into the recommendation pipeline by prompting an
off-the-shelf Multimodal Large Language Model (MLLM) to summarise each clip
into a rich natural-language description (e.g. "a superhero parody with
slapstick fights and orchestral stabs"), bridging the gap between raw content
and user intent. We use MLLM output with a state-of-the-art text encoder and
feed it into standard collaborative, content-based, and generative
recommenders. On the MicroLens-100K dataset, which emulates user interactions
with TikTok-style videos, our framework consistently surpasses conventional
video, audio, and metadata features in five representative models. Our findings
highlight the promise of leveraging MLLMs as on-the-fly knowledge extractors to
build more intent-aware video recommenders.