ChatPaper.aiChatPaper

Контекстуальная визуальная персонализация в моделях «визуальный язык»

Contextualized Visual Personalization in Vision-Language Models

February 3, 2026
Авторы: Yeongtak Oh, Sangwon Yu, Junsung Park, Han Cheol Moon, Jisoo Mok, Sungroh Yoon
cs.AI

Аннотация

Несмотря на недавний прогресс в визуально-языковых моделях (VLM), существующие подходы часто не способны генерировать персонализированные ответы на основе конкретного опыта пользователя, поскольку они не умеют ассоциировать визуальные входные данные с накопленным визуально-текстовым контекстом пользователя. Мы впервые формализуем эту проблему как контекстуальную визуальную персонализацию, которая требует от VLM распознавания визуальных образов и текстового поиска в персонализированном визуальном опыте при интерпретации новых изображений. Для решения этой задачи мы предлагаем CoViP — унифицированную архитектуру, которая рассматривает персонализированное описание изображений как ключевую задачу контекстуальной визуальной персонализации и улучшает эту способность посредством пост-обучения с подкреплением и генерации с обогащением описаниями. Мы также вводим диагностические оценки, которые явно исключают текстовые «короткие пути» и проверяют, действительно ли VLM используют визуальный контекст. Масштабные эксперименты демонстрируют, что существующие открытые и проприетарные VLM обладают существенными ограничениями, в то время как CoViP не только улучшает персонализированное описание изображений, но и обеспечивает комплексный прогресс в различных downstream-задачах персонализации. Эти результаты подчеркивают, что CoViP представляет собой важный этап на пути к созданию устойчивой и обобщаемой контекстуальной визуальной персонализации.
English
Despite recent progress in vision-language models (VLMs), existing approaches often fail to generate personalized responses based on the user's specific experiences, as they lack the ability to associate visual inputs with a user's accumulated visual-textual context. We newly formalize this challenge as contextualized visual personalization, which requires the visual recognition and textual retrieval of personalized visual experiences by VLMs when interpreting new images. To address this issue, we propose CoViP, a unified framework that treats personalized image captioning as a core task for contextualized visual personalization and improves this capability through reinforcement-learning-based post-training and caption-augmented generation. We further introduce diagnostic evaluations that explicitly rule out textual shortcut solutions and verify whether VLMs truly leverage visual context. Extensive experiments demonstrate that existing open-source and proprietary VLMs exhibit substantial limitations, while CoViP not only improves personalized image captioning but also yields holistic gains across downstream personalization tasks. These results highlight CoViP as a crucial stage for enabling robust and generalizable contextualized visual personalization.
PDF31February 5, 2026