Kontextualisierte visuelle Personalisierung in visuell-sprachlichen Modellen
Contextualized Visual Personalization in Vision-Language Models
February 3, 2026
papers.authors: Yeongtak Oh, Sangwon Yu, Junsung Park, Han Cheol Moon, Jisoo Mok, Sungroh Yoon
cs.AI
papers.abstract
Trotz jüngster Fortschritte bei visuell-sprachlichen Modellen (VLMs) scheitern bestehende Ansätze häufig daran, personalisierte Antworten auf der Grundlage der spezifischen Erfahrungen des Nutzers zu generieren, da sie nicht in der Lage sind, visuelle Eingaben mit dem akkumulierten visuell-textuellen Kontext eines Nutzers zu verknüpfen. Wir formulieren diese Herausforderung neu als kontextualisierte visuelle Personalisierung, die die visuelle Erkennung und textuelle Abfrage personalisierter visueller Erfahrungen durch VLMs bei der Interpretation neuer Bilder erfordert. Um dieses Problem zu lösen, schlagen wir CoViP vor, einen einheitlichen Rahmen, der personalisierte Bildbeschreibung als Kernaufgabe der kontextualisierten visuellen Personalisierung behandelt und diese Fähigkeit durch reinforcement-learning-basiertes Nachtraining und beschreibungsaugmentierte Generierung verbessert. Wir führen zudem diagnostische Evaluationen ein, die textuelle Abkürzungslösungen explizit ausschließen und überprüfen, ob VLMs tatsächlich visuellen Kontext nutzen. Umfangreiche Experimente zeigen, dass bestehende Open-Source- und proprietäre VLMs erhebliche Einschränkungen aufweisen, während CoViP nicht nur die personalisierte Bildbeschreibung verbessert, sondern auch ganzheitliche Gewinne über nachgelagerte Personalisierungsaufgaben hinweg erzielt. Diese Ergebnisse unterstreichen CoViP als eine entscheidende Stufe zur Ermöglichung einer robusten und generalisierbaren kontextualisierten visuellen Personalisierung.
English
Despite recent progress in vision-language models (VLMs), existing approaches often fail to generate personalized responses based on the user's specific experiences, as they lack the ability to associate visual inputs with a user's accumulated visual-textual context. We newly formalize this challenge as contextualized visual personalization, which requires the visual recognition and textual retrieval of personalized visual experiences by VLMs when interpreting new images. To address this issue, we propose CoViP, a unified framework that treats personalized image captioning as a core task for contextualized visual personalization and improves this capability through reinforcement-learning-based post-training and caption-augmented generation. We further introduce diagnostic evaluations that explicitly rule out textual shortcut solutions and verify whether VLMs truly leverage visual context. Extensive experiments demonstrate that existing open-source and proprietary VLMs exhibit substantial limitations, while CoViP not only improves personalized image captioning but also yields holistic gains across downstream personalization tasks. These results highlight CoViP as a crucial stage for enabling robust and generalizable contextualized visual personalization.