MMPB:マルチモーダルパーソナライゼーションの時代
MMPB: It's Time for Multi-Modal Personalization
September 26, 2025
著者: Jaeik Kim, Woojin Kim, Woohyeon Park, Jaeyoung Do
cs.AI
要旨
視覚的パーソナライゼーションは、スマートホームやヘルスケアなどのユーザー向けAIシステムにおいて不可欠であり、モデルの挙動をユーザー中心の概念に合わせることが重要です。しかし、最近の大規模なVision-Languageモデル(VLM)は、その幅広い適用可能性にもかかわらず、個々のユーザーに適応する能力については未だ十分に探求されていません。本論文では、VLMのパーソナライゼーションを評価するための最初の大規模なベンチマークであるMMPBを紹介します。MMPBは10,000の画像-クエリペアを含み、人間、動物、物体、キャラクターの4つのカテゴリーにわたる111のパーソナライズ可能な概念を網羅しており、人間カテゴリーには嗜好に基づいたクエリが追加されています。パーソナライゼーションを3つの主要なタスクタイプに構造化し、それぞれがVLMの異なる重要な特性を強調しています。オープンソースおよびクローズドソースのモデルを含む23の広く使用されているVLMを用いて、3段階のプロトコル(概念注入、マルチターン対話、パーソナライズドクエリ)を通じてパーソナライゼーション性能を評価します。我々の調査結果は、ほとんどのVLM(一部のクローズドソースモデルを含む)がパーソナライゼーションに苦戦していることを示しており、特に対話の一貫性の維持、ユーザー嗜好の処理、視覚的キューへの適応において課題が見られます。我々の分析は、VLMのパーソナライゼーションにおける課題(拒否行動や長文脈の忘却など)が、改善の余地が大きいことを明らかにしています。これらの限界を特定し、スケーラブルなベンチマークを提供することで、MMPBは真にパーソナライズされたマルチモーダルAIに向けた将来の研究に貴重な洞察と堅固な基盤を提供します。プロジェクトページ: aidaslab.github.io/MMPB
English
Visual personalization is essential in user-facing AI systems such as smart
homes and healthcare, where aligning model behavior with user-centric concepts
is critical. However, recent large Vision-Language Models (VLMs), despite their
broad applicability, remain underexplored in their ability to adapt to
individual users. In this paper, we introduce MMPB, the first extensive
benchmark for evaluating VLMs on personalization. MMPB comprises 10k
image-query pairs and includes 111 personalizable concepts across four
categories: humans, animals, objects, and characters, with the human category
enriched with preference-grounded queries. We structure personalization into
three main task types, each highlighting a different key property of VLMs.
Using 23 widely used VLMs including both open- and closed-source models, we
evaluate personalization performance via a three-stage protocol: concept
injection, multi-turn dialogue, and personalized querying. Our findings
indicate that most VLMs (including some closed-source models) struggle with
personalization, particularly in maintaining consistency over dialogue,
handling user preferences, and adapting to visual cues. Our analysis reveals
that the challenges in VLM personalization (such as refusal behaviors and
long-context forgetting) highlight substantial room for improvement. By
identifying these limitations and offering a scalable benchmark, MMPB offers
valuable insights and a solid foundation for future research toward truly
personalized multi-modal AI. Project Page: aidaslab.github.io/MMPB