MMPB: Es Hora de la Personalización Multimodal
MMPB: It's Time for Multi-Modal Personalization
September 26, 2025
Autores: Jaeik Kim, Woojin Kim, Woohyeon Park, Jaeyoung Do
cs.AI
Resumen
La personalización visual es esencial en sistemas de inteligencia artificial orientados al usuario, como hogares inteligentes y atención médica, donde alinear el comportamiento del modelo con conceptos centrados en el usuario es crítico. Sin embargo, los recientes modelos de visión y lenguaje (VLMs, por sus siglas en inglés) de gran escala, a pesar de su amplia aplicabilidad, siguen siendo poco explorados en su capacidad para adaptarse a usuarios individuales. En este artículo, presentamos MMPB, el primer benchmark extenso para evaluar VLMs en personalización. MMPB comprende 10,000 pares de imagen-consulta e incluye 111 conceptos personalizables en cuatro categorías: humanos, animales, objetos y personajes, con la categoría humana enriquecida con consultas basadas en preferencias. Estructuramos la personalización en tres tipos principales de tareas, cada una destacando una propiedad clave diferente de los VLMs. Utilizando 23 VLMs ampliamente utilizados, tanto de código abierto como cerrado, evaluamos el rendimiento de personalización mediante un protocolo de tres etapas: inyección de conceptos, diálogo multiturno y consultas personalizadas. Nuestros hallazgos indican que la mayoría de los VLMs (incluidos algunos modelos de código cerrado) tienen dificultades con la personalización, particularmente en mantener la consistencia durante el diálogo, manejar las preferencias del usuario y adaptarse a señales visuales. Nuestro análisis revela que los desafíos en la personalización de VLMs (como comportamientos de rechazo y olvido de contexto largo) destacan un margen sustancial de mejora. Al identificar estas limitaciones y ofrecer un benchmark escalable, MMPB proporciona valiosas ideas y una base sólida para futuras investigaciones hacia una IA multimodal verdaderamente personalizada. Página del proyecto: aidaslab.github.io/MMPB.
English
Visual personalization is essential in user-facing AI systems such as smart
homes and healthcare, where aligning model behavior with user-centric concepts
is critical. However, recent large Vision-Language Models (VLMs), despite their
broad applicability, remain underexplored in their ability to adapt to
individual users. In this paper, we introduce MMPB, the first extensive
benchmark for evaluating VLMs on personalization. MMPB comprises 10k
image-query pairs and includes 111 personalizable concepts across four
categories: humans, animals, objects, and characters, with the human category
enriched with preference-grounded queries. We structure personalization into
three main task types, each highlighting a different key property of VLMs.
Using 23 widely used VLMs including both open- and closed-source models, we
evaluate personalization performance via a three-stage protocol: concept
injection, multi-turn dialogue, and personalized querying. Our findings
indicate that most VLMs (including some closed-source models) struggle with
personalization, particularly in maintaining consistency over dialogue,
handling user preferences, and adapting to visual cues. Our analysis reveals
that the challenges in VLM personalization (such as refusal behaviors and
long-context forgetting) highlight substantial room for improvement. By
identifying these limitations and offering a scalable benchmark, MMPB offers
valuable insights and a solid foundation for future research toward truly
personalized multi-modal AI. Project Page: aidaslab.github.io/MMPB