MMPB: É Hora da Personalização Multimodal
MMPB: It's Time for Multi-Modal Personalization
September 26, 2025
Autores: Jaeik Kim, Woojin Kim, Woohyeon Park, Jaeyoung Do
cs.AI
Resumo
A personalização visual é essencial em sistemas de IA voltados para o usuário, como casas inteligentes e saúde, onde alinhar o comportamento do modelo com conceitos centrados no usuário é crucial. No entanto, os recentes Modelos de Visão e Linguagem (VLMs) de grande escala, apesar de sua ampla aplicabilidade, permanecem pouco explorados em sua capacidade de se adaptar a usuários individuais. Neste artigo, apresentamos o MMPB, o primeiro benchmark extensivo para avaliar VLMs em personalização. O MMPB compreende 10 mil pares de imagem-consulta e inclui 111 conceitos personalizáveis em quatro categorias: humanos, animais, objetos e personagens, com a categoria humana enriquecida com consultas baseadas em preferências. Estruturamos a personalização em três tipos principais de tarefas, cada uma destacando uma propriedade chave diferente dos VLMs. Utilizando 23 VLMs amplamente utilizados, incluindo modelos de código aberto e fechado, avaliamos o desempenho de personalização por meio de um protocolo de três etapas: injeção de conceitos, diálogo multi-turn e consultas personalizadas. Nossos resultados indicam que a maioria dos VLMs (incluindo alguns modelos de código fechado) enfrentam dificuldades com a personalização, particularmente em manter a consistência ao longo do diálogo, lidar com preferências do usuário e se adaptar a pistas visuais. Nossa análise revela que os desafios na personalização de VLMs (como comportamentos de recusa e esquecimento de contexto longo) destacam uma margem substancial para melhoria. Ao identificar essas limitações e oferecer um benchmark escalável, o MMPB fornece insights valiosos e uma base sólida para pesquisas futuras em direção a uma IA multimodal verdadeiramente personalizada. Página do Projeto: aidaslab.github.io/MMPB
English
Visual personalization is essential in user-facing AI systems such as smart
homes and healthcare, where aligning model behavior with user-centric concepts
is critical. However, recent large Vision-Language Models (VLMs), despite their
broad applicability, remain underexplored in their ability to adapt to
individual users. In this paper, we introduce MMPB, the first extensive
benchmark for evaluating VLMs on personalization. MMPB comprises 10k
image-query pairs and includes 111 personalizable concepts across four
categories: humans, animals, objects, and characters, with the human category
enriched with preference-grounded queries. We structure personalization into
three main task types, each highlighting a different key property of VLMs.
Using 23 widely used VLMs including both open- and closed-source models, we
evaluate personalization performance via a three-stage protocol: concept
injection, multi-turn dialogue, and personalized querying. Our findings
indicate that most VLMs (including some closed-source models) struggle with
personalization, particularly in maintaining consistency over dialogue,
handling user preferences, and adapting to visual cues. Our analysis reveals
that the challenges in VLM personalization (such as refusal behaviors and
long-context forgetting) highlight substantial room for improvement. By
identifying these limitations and offering a scalable benchmark, MMPB offers
valuable insights and a solid foundation for future research toward truly
personalized multi-modal AI. Project Page: aidaslab.github.io/MMPB