MMPB: Het is tijd voor multi-modale personalisatie
MMPB: It's Time for Multi-Modal Personalization
September 26, 2025
Auteurs: Jaeik Kim, Woojin Kim, Woohyeon Park, Jaeyoung Do
cs.AI
Samenvatting
Visuele personalisatie is essentieel in gebruikersgerichte AI-systemen zoals slimme huizen en gezondheidszorg, waar het afstemmen van modelgedrag op gebruikersgerichte concepten van cruciaal belang is. Recente grote Vision-Language Models (VLMs), ondanks hun brede toepasbaarheid, blijven echter onderbelicht in hun vermogen om zich aan te passen aan individuele gebruikers. In dit artikel introduceren we MMPB, de eerste uitgebreide benchmark voor het evalueren van VLMs op personalisatie. MMPB bestaat uit 10k afbeelding-queryparen en omvat 111 personaliseerbare concepten in vier categorieën: mensen, dieren, objecten en personages, waarbij de mensencategorie is verrijkt met voorkeurgestuurde queries. We structureren personalisatie in drie hoofdtaaktypen, elk gericht op een ander sleuteleigenschap van VLMs. Met behulp van 23 veelgebruikte VLMs, waaronder zowel open- als closed-source modellen, evalueren we de personalisatieprestaties via een driestappenprotocol: conceptinjectie, meerzijdige dialoog en gepersonaliseerd bevragen. Onze bevindingen tonen aan dat de meeste VLMs (inclusief enkele closed-source modellen) moeite hebben met personalisatie, met name in het handhaven van consistentie tijdens dialogen, het omgaan met gebruikersvoorkeuren en het aanpassen aan visuele signalen. Onze analyse laat zien dat de uitdagingen in VLM-personalisatie (zoals weigeringsgedrag en langetermijncontextvergetelheid) aanzienlijke ruimte voor verbetering blootleggen. Door deze beperkingen te identificeren en een schaalbare benchmark aan te bieden, biedt MMPB waardevolle inzichten en een solide basis voor toekomstig onderzoek naar echt gepersonaliseerde multimodale AI. Projectpagina: aidaslab.github.io/MMPB
English
Visual personalization is essential in user-facing AI systems such as smart
homes and healthcare, where aligning model behavior with user-centric concepts
is critical. However, recent large Vision-Language Models (VLMs), despite their
broad applicability, remain underexplored in their ability to adapt to
individual users. In this paper, we introduce MMPB, the first extensive
benchmark for evaluating VLMs on personalization. MMPB comprises 10k
image-query pairs and includes 111 personalizable concepts across four
categories: humans, animals, objects, and characters, with the human category
enriched with preference-grounded queries. We structure personalization into
three main task types, each highlighting a different key property of VLMs.
Using 23 widely used VLMs including both open- and closed-source models, we
evaluate personalization performance via a three-stage protocol: concept
injection, multi-turn dialogue, and personalized querying. Our findings
indicate that most VLMs (including some closed-source models) struggle with
personalization, particularly in maintaining consistency over dialogue,
handling user preferences, and adapting to visual cues. Our analysis reveals
that the challenges in VLM personalization (such as refusal behaviors and
long-context forgetting) highlight substantial room for improvement. By
identifying these limitations and offering a scalable benchmark, MMPB offers
valuable insights and a solid foundation for future research toward truly
personalized multi-modal AI. Project Page: aidaslab.github.io/MMPB