ChatPaper.aiChatPaper

MMPB : Il est temps pour la personnalisation multi-modale

MMPB: It's Time for Multi-Modal Personalization

September 26, 2025
papers.authors: Jaeik Kim, Woojin Kim, Woohyeon Park, Jaeyoung Do
cs.AI

papers.abstract

La personnalisation visuelle est essentielle dans les systèmes d'IA destinés aux utilisateurs, tels que les maisons intelligentes et les soins de santé, où l'alignement du comportement du modèle sur des concepts centrés sur l'utilisateur est crucial. Cependant, les récents modèles de vision et langage (VLMs) à grande échelle, malgré leur applicabilité étendue, restent peu explorés dans leur capacité à s'adapter aux utilisateurs individuels. Dans cet article, nous présentons MMPB, le premier benchmark complet pour évaluer les VLMs sur la personnalisation. MMPB comprend 10 000 paires image-requête et inclut 111 concepts personnalisables répartis en quatre catégories : humains, animaux, objets et personnages, avec la catégorie humaine enrichie de requêtes basées sur les préférences. Nous structurons la personnalisation en trois types de tâches principaux, chacun mettant en avant une propriété clé différente des VLMs. En utilisant 23 VLMs largement utilisés, incluant des modèles open-source et propriétaires, nous évaluons la performance de personnalisation via un protocole en trois étapes : injection de concepts, dialogue multi-tours et requêtes personnalisées. Nos résultats indiquent que la plupart des VLMs (y compris certains modèles propriétaires) éprouvent des difficultés avec la personnalisation, en particulier pour maintenir la cohérence dans les dialogues, gérer les préférences des utilisateurs et s'adapter aux indices visuels. Notre analyse révèle que les défis de la personnalisation des VLMs (tels que les comportements de refus et l'oubli de contexte long) mettent en évidence une marge d'amélioration substantielle. En identifiant ces limites et en proposant un benchmark évolutif, MMPB offre des insights précieux et une base solide pour les recherches futures visant à développer une IA multi-modale véritablement personnalisée. Page du projet : aidaslab.github.io/MMPB
English
Visual personalization is essential in user-facing AI systems such as smart homes and healthcare, where aligning model behavior with user-centric concepts is critical. However, recent large Vision-Language Models (VLMs), despite their broad applicability, remain underexplored in their ability to adapt to individual users. In this paper, we introduce MMPB, the first extensive benchmark for evaluating VLMs on personalization. MMPB comprises 10k image-query pairs and includes 111 personalizable concepts across four categories: humans, animals, objects, and characters, with the human category enriched with preference-grounded queries. We structure personalization into three main task types, each highlighting a different key property of VLMs. Using 23 widely used VLMs including both open- and closed-source models, we evaluate personalization performance via a three-stage protocol: concept injection, multi-turn dialogue, and personalized querying. Our findings indicate that most VLMs (including some closed-source models) struggle with personalization, particularly in maintaining consistency over dialogue, handling user preferences, and adapting to visual cues. Our analysis reveals that the challenges in VLM personalization (such as refusal behaviors and long-context forgetting) highlight substantial room for improvement. By identifying these limitations and offering a scalable benchmark, MMPB offers valuable insights and a solid foundation for future research toward truly personalized multi-modal AI. Project Page: aidaslab.github.io/MMPB
PDF142September 30, 2025