ChatPaper.aiChatPaper

비전-언어 모델에서의 맥락 기반 시각적 개인화

Contextualized Visual Personalization in Vision-Language Models

February 3, 2026
저자: Yeongtak Oh, Sangwon Yu, Junsung Park, Han Cheol Moon, Jisoo Mok, Sungroh Yoon
cs.AI

초록

시각-언어 모델(VLM)의 최근 발전에도 불구하고, 기존 접근법들은 사용자의 축적된 시각-텍스트 컨텍스트와 시각 입력을 연관 짓는 능력이 부족하여 사용자의 특정 경험을 바탕으로 개인화된 응답을 생성하는 데 종종 실패합니다. 우리는 이러한 과제를 새로운 이미지를 해석할 때 VLM이 개인화된 시각 경험을 시각적으로 인식하고 텍스트로 검색해야 하는 '맥락화된 시각 개인화'로 새롭게 규정합니다. 이 문제를 해결하기 위해 우리는 개인화된 이미지 캡션 생성을 맥락화된 시각 개인화의 핵심 과제로 간주하고, 강화 학습 기반 사후 학습과 캡션 증강 생성을 통해 이 능력을 향상시키는 통합 프레임워크인 CoViP를 제안합니다. 또한 텍스트적 단축 해결책을 명시적으로 배제하고 VLM이 진정으로 시각적 맥락을 활용하는지 검증하는 진단 평가를 도입합니다. 광범위한 실험을 통해 기존의 오픈소스 및 상용 VLM들이 상당한 한계를 보이는 반면, CoViP는 개인화된 이미지 캡션 생성 능력을 향상시킬 뿐만 아니라 하위 개인화 과제 전반에 걸쳐 종합적인 성능 향상을 가져옴을 입증합니다. 이러한 결과는 CoViP가 강력하고 일반화 가능한 맥락화된 시각 개인화를 가능하게 하는 중요한 단계임을 보여줍니다.
English
Despite recent progress in vision-language models (VLMs), existing approaches often fail to generate personalized responses based on the user's specific experiences, as they lack the ability to associate visual inputs with a user's accumulated visual-textual context. We newly formalize this challenge as contextualized visual personalization, which requires the visual recognition and textual retrieval of personalized visual experiences by VLMs when interpreting new images. To address this issue, we propose CoViP, a unified framework that treats personalized image captioning as a core task for contextualized visual personalization and improves this capability through reinforcement-learning-based post-training and caption-augmented generation. We further introduce diagnostic evaluations that explicitly rule out textual shortcut solutions and verify whether VLMs truly leverage visual context. Extensive experiments demonstrate that existing open-source and proprietary VLMs exhibit substantial limitations, while CoViP not only improves personalized image captioning but also yields holistic gains across downstream personalization tasks. These results highlight CoViP as a crucial stage for enabling robust and generalizable contextualized visual personalization.
PDF31February 5, 2026