Personalización Visual Contextualizada en Modelos de Visión y Lenguaje
Contextualized Visual Personalization in Vision-Language Models
February 3, 2026
Autores: Yeongtak Oh, Sangwon Yu, Junsung Park, Han Cheol Moon, Jisoo Mok, Sungroh Yoon
cs.AI
Resumen
A pesar de los recientes avances en los modelos de visión y lenguaje (VLMs), los enfoques existentes a menudo no logran generar respuestas personalizadas basadas en las experiencias específicas del usuario, ya que carecen de la capacidad de asociar entradas visuales con el contexto visual-textual acumulado por el usuario. Formalizamos este desafío como *personalización visual contextualizada*, que requiere el reconocimiento visual y la recuperación textual de experiencias visuales personalizadas por parte de los VLMs al interpretar nuevas imágenes. Para abordar este problema, proponemos CoViP, un marco unificado que trata la generación de descripciones de imágenes personalizadas como una tarea central para la personalización visual contextualizada y mejora esta capacidad mediante un post-entrenamiento basado en aprendizaje por refuerzo y una generación aumentada con descripciones. Además, introducimos evaluaciones de diagnóstico que descartan explícitamente soluciones de acceso directo textual y verifican si los VLMs aprovechan verdaderamente el contexto visual. Experimentos exhaustivos demuestran que los VLMs existentes, tanto de código abierto como propietarios, presentan limitaciones sustanciales, mientras que CoViP no solo mejora la generación de descripciones de imágenes personalizadas, sino que también produce ganancias holísticas en diversas tareas de personalización posteriores. Estos resultados destacan a CoViP como una etapa crucial para permitir una personalización visual contextualizada robusta y generalizable.
English
Despite recent progress in vision-language models (VLMs), existing approaches often fail to generate personalized responses based on the user's specific experiences, as they lack the ability to associate visual inputs with a user's accumulated visual-textual context. We newly formalize this challenge as contextualized visual personalization, which requires the visual recognition and textual retrieval of personalized visual experiences by VLMs when interpreting new images. To address this issue, we propose CoViP, a unified framework that treats personalized image captioning as a core task for contextualized visual personalization and improves this capability through reinforcement-learning-based post-training and caption-augmented generation. We further introduce diagnostic evaluations that explicitly rule out textual shortcut solutions and verify whether VLMs truly leverage visual context. Extensive experiments demonstrate that existing open-source and proprietary VLMs exhibit substantial limitations, while CoViP not only improves personalized image captioning but also yields holistic gains across downstream personalization tasks. These results highlight CoViP as a crucial stage for enabling robust and generalizable contextualized visual personalization.