ChatPaper.aiChatPaper

Personnalisation visuelle contextuelle dans les modèles vision-langage

Contextualized Visual Personalization in Vision-Language Models

February 3, 2026
papers.authors: Yeongtak Oh, Sangwon Yu, Junsung Park, Han Cheol Moon, Jisoo Mok, Sungroh Yoon
cs.AI

papers.abstract

Malgré les progrès récents des modèles vision-langage (VLM), les approches existantes échouent souvent à générer des réponses personnalisées basées sur les expériences spécifiques de l'utilisateur, car elles manquent de capacité à associer les entrées visuelles au contexte visuel-textuel accumulé par l'utilisateur. Nous formalisons cette problématique sous le nom de personnalisation visuelle contextualisée, qui nécessite la reconnaissance visuelle et la récupération textuelle des expériences visuelles personnalisées par les VLM lors de l'interprétation de nouvelles images. Pour résoudre ce problème, nous proposons CoViP, un cadre unifié qui traite la légende d'image personnalisée comme une tâche centrale pour la personnalisation visuelle contextualisée et améliore cette capacité grâce à un post-entraînement par apprentissage par renforcement et une génération augmentée par légendes. Nous introduisons en outre des évaluations diagnostiques qui excluent explicitement les solutions de raccourci textuel et vérifient si les VLM exploitent véritablement le contexte visuel. Des expériences approfondies démontrent que les VLM open-source et propriétaires existants présentent des limitations substantielles, tandis que CoViP améliore non seulement la légende d'image personnalisée mais produit aussi des gains holistiques across les tâches de personnalisation en aval. Ces résultats soulignent CoViP comme une étape cruciale pour permettre une personnalisation visuelle contextualisée robuste et généralisable.
English
Despite recent progress in vision-language models (VLMs), existing approaches often fail to generate personalized responses based on the user's specific experiences, as they lack the ability to associate visual inputs with a user's accumulated visual-textual context. We newly formalize this challenge as contextualized visual personalization, which requires the visual recognition and textual retrieval of personalized visual experiences by VLMs when interpreting new images. To address this issue, we propose CoViP, a unified framework that treats personalized image captioning as a core task for contextualized visual personalization and improves this capability through reinforcement-learning-based post-training and caption-augmented generation. We further introduce diagnostic evaluations that explicitly rule out textual shortcut solutions and verify whether VLMs truly leverage visual context. Extensive experiments demonstrate that existing open-source and proprietary VLMs exhibit substantial limitations, while CoViP not only improves personalized image captioning but also yields holistic gains across downstream personalization tasks. These results highlight CoViP as a crucial stage for enabling robust and generalizable contextualized visual personalization.
PDF31February 5, 2026