ChatPaper.aiChatPaper

MMPB: É Hora da Personalização Multimodal

MMPB: It's Time for Multi-Modal Personalization

September 26, 2025
Autores: Jaeik Kim, Woojin Kim, Woohyeon Park, Jaeyoung Do
cs.AI

Resumo

A personalização visual é essencial em sistemas de IA voltados para o usuário, como casas inteligentes e saúde, onde alinhar o comportamento do modelo com conceitos centrados no usuário é crucial. No entanto, os recentes Modelos de Visão e Linguagem (VLMs) de grande escala, apesar de sua ampla aplicabilidade, permanecem pouco explorados em sua capacidade de se adaptar a usuários individuais. Neste artigo, apresentamos o MMPB, o primeiro benchmark extensivo para avaliar VLMs em personalização. O MMPB compreende 10 mil pares de imagem-consulta e inclui 111 conceitos personalizáveis em quatro categorias: humanos, animais, objetos e personagens, com a categoria humana enriquecida com consultas baseadas em preferências. Estruturamos a personalização em três tipos principais de tarefas, cada uma destacando uma propriedade chave diferente dos VLMs. Utilizando 23 VLMs amplamente utilizados, incluindo modelos de código aberto e fechado, avaliamos o desempenho de personalização por meio de um protocolo de três etapas: injeção de conceitos, diálogo multi-turn e consultas personalizadas. Nossos resultados indicam que a maioria dos VLMs (incluindo alguns modelos de código fechado) enfrentam dificuldades com a personalização, particularmente em manter a consistência ao longo do diálogo, lidar com preferências do usuário e se adaptar a pistas visuais. Nossa análise revela que os desafios na personalização de VLMs (como comportamentos de recusa e esquecimento de contexto longo) destacam uma margem substancial para melhoria. Ao identificar essas limitações e oferecer um benchmark escalável, o MMPB fornece insights valiosos e uma base sólida para pesquisas futuras em direção a uma IA multimodal verdadeiramente personalizada. Página do Projeto: aidaslab.github.io/MMPB
English
Visual personalization is essential in user-facing AI systems such as smart homes and healthcare, where aligning model behavior with user-centric concepts is critical. However, recent large Vision-Language Models (VLMs), despite their broad applicability, remain underexplored in their ability to adapt to individual users. In this paper, we introduce MMPB, the first extensive benchmark for evaluating VLMs on personalization. MMPB comprises 10k image-query pairs and includes 111 personalizable concepts across four categories: humans, animals, objects, and characters, with the human category enriched with preference-grounded queries. We structure personalization into three main task types, each highlighting a different key property of VLMs. Using 23 widely used VLMs including both open- and closed-source models, we evaluate personalization performance via a three-stage protocol: concept injection, multi-turn dialogue, and personalized querying. Our findings indicate that most VLMs (including some closed-source models) struggle with personalization, particularly in maintaining consistency over dialogue, handling user preferences, and adapting to visual cues. Our analysis reveals that the challenges in VLM personalization (such as refusal behaviors and long-context forgetting) highlight substantial room for improvement. By identifying these limitations and offering a scalable benchmark, MMPB offers valuable insights and a solid foundation for future research toward truly personalized multi-modal AI. Project Page: aidaslab.github.io/MMPB
PDF142September 30, 2025