ChatPaper.aiChatPaper

MMPB: 이제 다중 모달 개인화의 시대가 왔다

MMPB: It's Time for Multi-Modal Personalization

September 26, 2025
저자: Jaeik Kim, Woojin Kim, Woohyeon Park, Jaeyoung Do
cs.AI

초록

시각적 개인화는 스마트 홈 및 헬스케어와 같은 사용자 중심 AI 시스템에서 필수적이며, 모델의 행동을 사용자 중심 개념과 일치시키는 것이 중요합니다. 그러나 최근의 대규모 Vision-Language 모델(VLMs)은 광범위한 적용 가능성에도 불구하고 개별 사용자에 적응하는 능력에 대해 충분히 탐구되지 않았습니다. 본 논문에서는 개인화를 평가하기 위한 첫 번째 포괄적인 벤치마크인 MMPB를 소개합니다. MMPB는 10,000개의 이미지-질문 쌍으로 구성되어 있으며, 인간, 동물, 물체, 캐릭터의 네 가지 범주에 걸쳐 111개의 개인화 가능한 개념을 포함합니다. 특히 인간 범주는 선호도 기반 질문으로 풍부하게 구성되었습니다. 우리는 개인화를 세 가지 주요 작업 유형으로 구조화하여 각각 VLMs의 다른 핵심 속성을 강조합니다. 오픈소스 및 클로즈드소스 모델을 포함한 23개의 널리 사용되는 VLMs를 사용하여 개념 주입, 다중 턴 대화, 개인화된 질문이라는 세 단계 프로토콜을 통해 개인화 성능을 평가합니다. 우리의 연구 결과는 대부분의 VLMs(일부 클로즈드소스 모델 포함)이 개인화, 특히 대화 일관성 유지, 사용자 선호도 처리, 시각적 단서에 적응하는 데 어려움을 겪고 있음을 나타냅니다. 우리의 분석은 VLM 개인화의 과제(예: 거부 행동 및 장기 문맥 망각)가 상당한 개선의 여지가 있음을 강조합니다. 이러한 한계를 식별하고 확장 가능한 벤치마크를 제공함으로써, MMPB는 진정한 개인화된 다중 모달 AI를 위한 미래 연구에 유용한 통찰과 견고한 기반을 제공합니다. 프로젝트 페이지: aidaslab.github.io/MMPB
English
Visual personalization is essential in user-facing AI systems such as smart homes and healthcare, where aligning model behavior with user-centric concepts is critical. However, recent large Vision-Language Models (VLMs), despite their broad applicability, remain underexplored in their ability to adapt to individual users. In this paper, we introduce MMPB, the first extensive benchmark for evaluating VLMs on personalization. MMPB comprises 10k image-query pairs and includes 111 personalizable concepts across four categories: humans, animals, objects, and characters, with the human category enriched with preference-grounded queries. We structure personalization into three main task types, each highlighting a different key property of VLMs. Using 23 widely used VLMs including both open- and closed-source models, we evaluate personalization performance via a three-stage protocol: concept injection, multi-turn dialogue, and personalized querying. Our findings indicate that most VLMs (including some closed-source models) struggle with personalization, particularly in maintaining consistency over dialogue, handling user preferences, and adapting to visual cues. Our analysis reveals that the challenges in VLM personalization (such as refusal behaviors and long-context forgetting) highlight substantial room for improvement. By identifying these limitations and offering a scalable benchmark, MMPB offers valuable insights and a solid foundation for future research toward truly personalized multi-modal AI. Project Page: aidaslab.github.io/MMPB
PDF142September 30, 2025