Gecontextualiseerde visuele personalisatie in visuele-taalmodellen
Contextualized Visual Personalization in Vision-Language Models
February 3, 2026
Auteurs: Yeongtak Oh, Sangwon Yu, Junsung Park, Han Cheol Moon, Jisoo Mok, Sungroh Yoon
cs.AI
Samenvatting
Ondanks recente vooruitgang in visueel-taalkundige modellen (VTM's) slagen bestaande benaderingen er vaak niet in om gepersonaliseerde antwoorden te genereren op basis van de specifieke ervaringen van de gebruiker, omdat ze niet in staat zijn visuele input te associëren met de opgebouwde visueel-tekstuele context van een gebruiker. Wij formuleren deze uitdaging nieuw als *contextuele visuele personalisatie*, wat vereist dat VTM's bij het interpreteren van nieuwe afbeeldingen persoonlijke visuele ervaringen zowel visueel herkennen als tekstueel kunnen opzoeken. Om dit probleem aan te pakken, stellen wij CoViP voor, een uniform raamwerk dat gepersonaliseerde beeldbeschrijving behandelt als een kerntaak voor contextuele visuele personalisatie en deze capaciteit verbetert via *reinforcement-learning*-gebaseerde natraining en beschrijvings-aangevulde generatie. Wij introduceren verder diagnostische evaluaties die tekstuele *shortcut*-oplossingen expliciet uitsluiten en verifiëren of VTM's daadwerkelijk visuele context benutten. Uitgebreide experimenten tonen aan dat bestaande open-source en propriëtaire VTM's aanzienlijke beperkingen vertonen, terwijl CoViP niet alleen gepersonaliseerde beeldbeschrijving verbetert, maar ook holistische winst oplevert across downstream personalisatietaken. Deze resultaten onderstrepen CoViP als een cruciale stap naar robuuste en generaliseerbare contextuele visuele personalisatie.
English
Despite recent progress in vision-language models (VLMs), existing approaches often fail to generate personalized responses based on the user's specific experiences, as they lack the ability to associate visual inputs with a user's accumulated visual-textual context. We newly formalize this challenge as contextualized visual personalization, which requires the visual recognition and textual retrieval of personalized visual experiences by VLMs when interpreting new images. To address this issue, we propose CoViP, a unified framework that treats personalized image captioning as a core task for contextualized visual personalization and improves this capability through reinforcement-learning-based post-training and caption-augmented generation. We further introduce diagnostic evaluations that explicitly rule out textual shortcut solutions and verify whether VLMs truly leverage visual context. Extensive experiments demonstrate that existing open-source and proprietary VLMs exhibit substantial limitations, while CoViP not only improves personalized image captioning but also yields holistic gains across downstream personalization tasks. These results highlight CoViP as a crucial stage for enabling robust and generalizable contextualized visual personalization.