MMPB: 이제 다중 모달 개인화의 시대가 왔다
MMPB: It's Time for Multi-Modal Personalization
September 26, 2025
저자: Jaeik Kim, Woojin Kim, Woohyeon Park, Jaeyoung Do
cs.AI
초록
시각적 개인화는 스마트 홈 및 헬스케어와 같은 사용자 중심 AI 시스템에서 필수적이며, 모델의 행동을 사용자 중심 개념과 일치시키는 것이 중요합니다. 그러나 최근의 대규모 Vision-Language 모델(VLMs)은 광범위한 적용 가능성에도 불구하고 개별 사용자에 적응하는 능력에 대해 충분히 탐구되지 않았습니다. 본 논문에서는 개인화를 평가하기 위한 첫 번째 포괄적인 벤치마크인 MMPB를 소개합니다. MMPB는 10,000개의 이미지-질문 쌍으로 구성되어 있으며, 인간, 동물, 물체, 캐릭터의 네 가지 범주에 걸쳐 111개의 개인화 가능한 개념을 포함합니다. 특히 인간 범주는 선호도 기반 질문으로 풍부하게 구성되었습니다. 우리는 개인화를 세 가지 주요 작업 유형으로 구조화하여 각각 VLMs의 다른 핵심 속성을 강조합니다. 오픈소스 및 클로즈드소스 모델을 포함한 23개의 널리 사용되는 VLMs를 사용하여 개념 주입, 다중 턴 대화, 개인화된 질문이라는 세 단계 프로토콜을 통해 개인화 성능을 평가합니다. 우리의 연구 결과는 대부분의 VLMs(일부 클로즈드소스 모델 포함)이 개인화, 특히 대화 일관성 유지, 사용자 선호도 처리, 시각적 단서에 적응하는 데 어려움을 겪고 있음을 나타냅니다. 우리의 분석은 VLM 개인화의 과제(예: 거부 행동 및 장기 문맥 망각)가 상당한 개선의 여지가 있음을 강조합니다. 이러한 한계를 식별하고 확장 가능한 벤치마크를 제공함으로써, MMPB는 진정한 개인화된 다중 모달 AI를 위한 미래 연구에 유용한 통찰과 견고한 기반을 제공합니다. 프로젝트 페이지: aidaslab.github.io/MMPB
English
Visual personalization is essential in user-facing AI systems such as smart
homes and healthcare, where aligning model behavior with user-centric concepts
is critical. However, recent large Vision-Language Models (VLMs), despite their
broad applicability, remain underexplored in their ability to adapt to
individual users. In this paper, we introduce MMPB, the first extensive
benchmark for evaluating VLMs on personalization. MMPB comprises 10k
image-query pairs and includes 111 personalizable concepts across four
categories: humans, animals, objects, and characters, with the human category
enriched with preference-grounded queries. We structure personalization into
three main task types, each highlighting a different key property of VLMs.
Using 23 widely used VLMs including both open- and closed-source models, we
evaluate personalization performance via a three-stage protocol: concept
injection, multi-turn dialogue, and personalized querying. Our findings
indicate that most VLMs (including some closed-source models) struggle with
personalization, particularly in maintaining consistency over dialogue,
handling user preferences, and adapting to visual cues. Our analysis reveals
that the challenges in VLM personalization (such as refusal behaviors and
long-context forgetting) highlight substantial room for improvement. By
identifying these limitations and offering a scalable benchmark, MMPB offers
valuable insights and a solid foundation for future research toward truly
personalized multi-modal AI. Project Page: aidaslab.github.io/MMPB