MMPB: Es ist Zeit für Multi-Modale Personalisierung
MMPB: It's Time for Multi-Modal Personalization
September 26, 2025
papers.authors: Jaeik Kim, Woojin Kim, Woohyeon Park, Jaeyoung Do
cs.AI
papers.abstract
Visuelle Personalisierung ist entscheidend in benutzerorientierten KI-Systemen wie Smart Homes und im Gesundheitswesen, wo die Ausrichtung des Modellverhaltens an benutzerzentrierten Konzepten von zentraler Bedeutung ist. Trotz ihrer breiten Anwendbarkeit bleibt die Fähigkeit aktueller großer Vision-Sprach-Modelle (VLMs), sich an individuelle Benutzer anzupassen, jedoch weitgehend unerforscht. In diesem Artikel stellen wir MMPB vor, den ersten umfangreichen Benchmark zur Bewertung von VLMs hinsichtlich Personalisierung. MMPB umfasst 10.000 Bild-Abfrage-Paare und beinhaltet 111 personalisierbare Konzepte in vier Kategorien: Menschen, Tiere, Objekte und Charaktere, wobei die Kategorie der Menschen durch präferenzbasierte Abfragen angereichert ist. Wir gliedern die Personalisierung in drei Hauptaufgabentypen, die jeweils eine unterschiedliche Schlüsseleigenschaft von VLMs hervorheben. Unter Verwendung von 23 weit verbreiteten VLMs, einschließlich sowohl Open-Source- als auch proprietären Modellen, bewerten wir die Personalisierungsleistung anhand eines dreistufigen Protokolls: Konzeptinjektion, mehrschrittiger Dialog und personalisierte Abfrage. Unsere Ergebnisse zeigen, dass die meisten VLMs (einschließlich einiger proprietärer Modelle) Schwierigkeiten mit der Personalisierung haben, insbesondere bei der Aufrechterhaltung der Konsistenz über Dialoge hinweg, der Handhabung von Benutzerpräferenzen und der Anpassung an visuelle Hinweise. Unsere Analyse offenbart, dass die Herausforderungen bei der VLM-Personalisierung (wie Ablehnungsverhalten und Langzeitkontextvergessen) erheblichen Verbesserungsbedarf aufzeigen. Durch die Identifizierung dieser Grenzen und die Bereitstellung eines skalierbaren Benchmarks bietet MMPB wertvolle Einblicke und eine solide Grundlage für zukünftige Forschung hin zu wirklich personalisierter multimodaler KI. Projektseite: aidaslab.github.io/MMPB
English
Visual personalization is essential in user-facing AI systems such as smart
homes and healthcare, where aligning model behavior with user-centric concepts
is critical. However, recent large Vision-Language Models (VLMs), despite their
broad applicability, remain underexplored in their ability to adapt to
individual users. In this paper, we introduce MMPB, the first extensive
benchmark for evaluating VLMs on personalization. MMPB comprises 10k
image-query pairs and includes 111 personalizable concepts across four
categories: humans, animals, objects, and characters, with the human category
enriched with preference-grounded queries. We structure personalization into
three main task types, each highlighting a different key property of VLMs.
Using 23 widely used VLMs including both open- and closed-source models, we
evaluate personalization performance via a three-stage protocol: concept
injection, multi-turn dialogue, and personalized querying. Our findings
indicate that most VLMs (including some closed-source models) struggle with
personalization, particularly in maintaining consistency over dialogue,
handling user preferences, and adapting to visual cues. Our analysis reveals
that the challenges in VLM personalization (such as refusal behaviors and
long-context forgetting) highlight substantial room for improvement. By
identifying these limitations and offering a scalable benchmark, MMPB offers
valuable insights and a solid foundation for future research toward truly
personalized multi-modal AI. Project Page: aidaslab.github.io/MMPB