ChatPaper.aiChatPaper

MMPB: È il momento della personalizzazione multi-modale

MMPB: It's Time for Multi-Modal Personalization

September 26, 2025
Autori: Jaeik Kim, Woojin Kim, Woohyeon Park, Jaeyoung Do
cs.AI

Abstract

La personalizzazione visiva è essenziale nei sistemi di IA rivolti agli utenti, come le case intelligenti e l'assistenza sanitaria, dove allineare il comportamento del modello a concetti centrati sull'utente è fondamentale. Tuttavia, i recenti modelli Vision-Language (VLM) di grandi dimensioni, nonostante la loro ampia applicabilità, rimangono poco esplorati nella loro capacità di adattarsi a utenti individuali. In questo articolo, introduciamo MMPB, il primo benchmark estensivo per valutare i VLM sulla personalizzazione. MMPB comprende 10.000 coppie immagine-query e include 111 concetti personalizzabili in quattro categorie: esseri umani, animali, oggetti e personaggi, con la categoria umana arricchita da query basate sulle preferenze. Strutturiamo la personalizzazione in tre tipi principali di task, ciascuno dei quali evidenzia una diversa proprietà chiave dei VLM. Utilizzando 23 VLM ampiamente utilizzati, inclusi modelli open-source e closed-source, valutiamo le prestazioni di personalizzazione attraverso un protocollo in tre fasi: iniezione del concetto, dialogo multi-turn e query personalizzate. I nostri risultati indicano che la maggior parte dei VLM (inclusi alcuni modelli closed-source) fatica nella personalizzazione, in particolare nel mantenere la coerenza durante il dialogo, gestire le preferenze degli utenti e adattarsi ai segnali visivi. La nostra analisi rivela che le sfide nella personalizzazione dei VLM (come i comportamenti di rifiuto e la dimenticanza del contesto lungo) evidenziano un ampio margine di miglioramento. Identificando queste limitazioni e offrendo un benchmark scalabile, MMPB fornisce intuizioni preziose e una solida base per la ricerca futura verso un'IA multimodale veramente personalizzata. Pagina del progetto: aidaslab.github.io/MMPB
English
Visual personalization is essential in user-facing AI systems such as smart homes and healthcare, where aligning model behavior with user-centric concepts is critical. However, recent large Vision-Language Models (VLMs), despite their broad applicability, remain underexplored in their ability to adapt to individual users. In this paper, we introduce MMPB, the first extensive benchmark for evaluating VLMs on personalization. MMPB comprises 10k image-query pairs and includes 111 personalizable concepts across four categories: humans, animals, objects, and characters, with the human category enriched with preference-grounded queries. We structure personalization into three main task types, each highlighting a different key property of VLMs. Using 23 widely used VLMs including both open- and closed-source models, we evaluate personalization performance via a three-stage protocol: concept injection, multi-turn dialogue, and personalized querying. Our findings indicate that most VLMs (including some closed-source models) struggle with personalization, particularly in maintaining consistency over dialogue, handling user preferences, and adapting to visual cues. Our analysis reveals that the challenges in VLM personalization (such as refusal behaviors and long-context forgetting) highlight substantial room for improvement. By identifying these limitations and offering a scalable benchmark, MMPB offers valuable insights and a solid foundation for future research toward truly personalized multi-modal AI. Project Page: aidaslab.github.io/MMPB
PDF142September 30, 2025