視覚言語モデルにおける文脈化された視覚的パーソナライゼーション
Contextualized Visual Personalization in Vision-Language Models
February 3, 2026
著者: Yeongtak Oh, Sangwon Yu, Junsung Park, Han Cheol Moon, Jisoo Mok, Sungroh Yoon
cs.AI
要旨
視覚言語モデル(VLM)の近年の進歩にもかかわらず、既存のアプローチは、ユーザーの蓄積された視覚-文脈的コンテキストと視覚入力を関連付ける能力を欠いているため、ユーザーの特定の経験に基づいた個人化された応答を生成することにしばしば失敗する。我々はこの課題を新たに「文脈化視覚的個人化」として定式化する。これは、新しい画像を解釈する際に、VLMが個人化された視覚的経験の視覚的認識とテキスト的検索を要求するものである。この問題に対処するため、我々はCoViPを提案する。これは、個人化画像キャプション生成を文脈化視覚的個人化の中核タスクと位置付け、強化学習に基づく事後学習とキャプション拡張生成を通じてこの能力を向上させる統一フレームワークである。さらに、テキスト的なショートカット解決策を明示的に排除し、VLMが真に視覚的コンテキストを活用しているかどうかを検証する診断的評価を導入する。大規模な実験により、既存のオープンソースおよびプロプライエタリなVLMには大きな限界がある一方で、CoViPは個人化画像キャプション生成を改善するだけでなく、下流の個人化タスク全体にわたって総合的な性能向上をもたらすことが実証された。これらの結果は、CoViPが堅牢で一般化可能な文脈化視覚的個人化を実現する上で重要な段階であることを示している。
English
Despite recent progress in vision-language models (VLMs), existing approaches often fail to generate personalized responses based on the user's specific experiences, as they lack the ability to associate visual inputs with a user's accumulated visual-textual context. We newly formalize this challenge as contextualized visual personalization, which requires the visual recognition and textual retrieval of personalized visual experiences by VLMs when interpreting new images. To address this issue, we propose CoViP, a unified framework that treats personalized image captioning as a core task for contextualized visual personalization and improves this capability through reinforcement-learning-based post-training and caption-augmented generation. We further introduce diagnostic evaluations that explicitly rule out textual shortcut solutions and verify whether VLMs truly leverage visual context. Extensive experiments demonstrate that existing open-source and proprietary VLMs exhibit substantial limitations, while CoViP not only improves personalized image captioning but also yields holistic gains across downstream personalization tasks. These results highlight CoViP as a crucial stage for enabling robust and generalizable contextualized visual personalization.