MMPB: Es ist Zeit für Multi-Modale Personalisierung

papers.abstract

Visuelle Personalisierung ist entscheidend in benutzerorientierten KI-Systemen wie Smart Homes und im Gesundheitswesen, wo die Ausrichtung des Modellverhaltens an benutzerzentrierten Konzepten von zentraler Bedeutung ist. Trotz ihrer breiten Anwendbarkeit bleibt die Fähigkeit aktueller großer Vision-Sprach-Modelle (VLMs), sich an individuelle Benutzer anzupassen, jedoch weitgehend unerforscht. In diesem Artikel stellen wir MMPB vor, den ersten umfangreichen Benchmark zur Bewertung von VLMs hinsichtlich Personalisierung. MMPB umfasst 10.000 Bild-Abfrage-Paare und beinhaltet 111 personalisierbare Konzepte in vier Kategorien: Menschen, Tiere, Objekte und Charaktere, wobei die Kategorie der Menschen durch präferenzbasierte Abfragen angereichert ist. Wir gliedern die Personalisierung in drei Hauptaufgabentypen, die jeweils eine unterschiedliche Schlüsseleigenschaft von VLMs hervorheben. Unter Verwendung von 23 weit verbreiteten VLMs, einschließlich sowohl Open-Source- als auch proprietären Modellen, bewerten wir die Personalisierungsleistung anhand eines dreistufigen Protokolls: Konzeptinjektion, mehrschrittiger Dialog und personalisierte Abfrage. Unsere Ergebnisse zeigen, dass die meisten VLMs (einschließlich einiger proprietärer Modelle) Schwierigkeiten mit der Personalisierung haben, insbesondere bei der Aufrechterhaltung der Konsistenz über Dialoge hinweg, der Handhabung von Benutzerpräferenzen und der Anpassung an visuelle Hinweise. Unsere Analyse offenbart, dass die Herausforderungen bei der VLM-Personalisierung (wie Ablehnungsverhalten und Langzeitkontextvergessen) erheblichen Verbesserungsbedarf aufzeigen. Durch die Identifizierung dieser Grenzen und die Bereitstellung eines skalierbaren Benchmarks bietet MMPB wertvolle Einblicke und eine solide Grundlage für zukünftige Forschung hin zu wirklich personalisierter multimodaler KI. Projektseite: aidaslab.github.io/MMPB

English

Visual personalization is essential in user-facing AI systems such as smart homes and healthcare, where aligning model behavior with user-centric concepts is critical. However, recent large Vision-Language Models (VLMs), despite their broad applicability, remain underexplored in their ability to adapt to individual users. In this paper, we introduce MMPB, the first extensive benchmark for evaluating VLMs on personalization. MMPB comprises 10k image-query pairs and includes 111 personalizable concepts across four categories: humans, animals, objects, and characters, with the human category enriched with preference-grounded queries. We structure personalization into three main task types, each highlighting a different key property of VLMs. Using 23 widely used VLMs including both open- and closed-source models, we evaluate personalization performance via a three-stage protocol: concept injection, multi-turn dialogue, and personalized querying. Our findings indicate that most VLMs (including some closed-source models) struggle with personalization, particularly in maintaining consistency over dialogue, handling user preferences, and adapting to visual cues. Our analysis reveals that the challenges in VLM personalization (such as refusal behaviors and long-context forgetting) highlight substantial room for improvement. By identifying these limitations and offering a scalable benchmark, MMPB offers valuable insights and a solid foundation for future research toward truly personalized multi-modal AI. Project Page: aidaslab.github.io/MMPB

MMPB: Es ist Zeit für Multi-Modale Personalisierung

MMPB: It's Time for Multi-Modal Personalization

papers.abstract

Support