ChatPaper.aiChatPaper

MMPB: Время для мультимодальной персонализации

MMPB: It's Time for Multi-Modal Personalization

September 26, 2025
Авторы: Jaeik Kim, Woojin Kim, Woohyeon Park, Jaeyoung Do
cs.AI

Аннотация

Визуальная персонализация играет ключевую роль в пользовательских системах с искусственным интеллектом, таких как умные дома и здравоохранение, где согласование поведения модели с пользовательскими концепциями имеет критическое значение. Однако современные крупные модели, объединяющие зрение и язык (Vision-Language Models, VLMs), несмотря на их широкую применимость, остаются недостаточно изученными в плане адаптации к индивидуальным пользователям. В данной статье мы представляем MMPB — первый масштабный бенчмарк для оценки VLMs в контексте персонализации. MMPB включает 10 тысяч пар изображение-запрос и охватывает 111 персонализируемых концепций, разделенных на четыре категории: люди, животные, объекты и персонажи, причем категория людей дополнена запросами, основанными на предпочтениях. Мы структурируем персонализацию в три основных типа задач, каждый из которых подчеркивает различные ключевые свойства VLMs. Используя 23 широко известные VLMs, включая как открытые, так и закрытые модели, мы оцениваем производительность персонализации с помощью трехэтапного протокола: внедрение концепций, многоходовый диалог и персонализированные запросы. Наши результаты показывают, что большинство VLMs (включая некоторые закрытые модели) испытывают трудности с персонализацией, особенно в поддержании согласованности в диалогах, обработке пользовательских предпочтений и адаптации к визуальным подсказкам. Наш анализ выявляет, что проблемы в персонализации VLMs (такие как отказные поведения и забывание длинного контекста) указывают на значительный потенциал для улучшений. Выявляя эти ограничения и предлагая масштабируемый бенчмарк, MMPB предоставляет ценные инсайты и прочную основу для будущих исследований в направлении создания по-настоящему персонализированного мультимодального ИИ. Страница проекта: aidaslab.github.io/MMPB
English
Visual personalization is essential in user-facing AI systems such as smart homes and healthcare, where aligning model behavior with user-centric concepts is critical. However, recent large Vision-Language Models (VLMs), despite their broad applicability, remain underexplored in their ability to adapt to individual users. In this paper, we introduce MMPB, the first extensive benchmark for evaluating VLMs on personalization. MMPB comprises 10k image-query pairs and includes 111 personalizable concepts across four categories: humans, animals, objects, and characters, with the human category enriched with preference-grounded queries. We structure personalization into three main task types, each highlighting a different key property of VLMs. Using 23 widely used VLMs including both open- and closed-source models, we evaluate personalization performance via a three-stage protocol: concept injection, multi-turn dialogue, and personalized querying. Our findings indicate that most VLMs (including some closed-source models) struggle with personalization, particularly in maintaining consistency over dialogue, handling user preferences, and adapting to visual cues. Our analysis reveals that the challenges in VLM personalization (such as refusal behaviors and long-context forgetting) highlight substantial room for improvement. By identifying these limitations and offering a scalable benchmark, MMPB offers valuable insights and a solid foundation for future research toward truly personalized multi-modal AI. Project Page: aidaslab.github.io/MMPB
PDF142September 30, 2025