Personalização Visual Contextualizada em Modelos de Visão e Linguagem

Resumo

Apesar dos recentes avanços nos modelos visão-linguagem (VLMs), as abordagens existentes frequentemente falham em gerar respostas personalizadas com base nas experiências específicas do usuário, uma vez que carecem da capacidade de associar entradas visuais ao contexto visual-textual acumulado pelo usuário. Nós formalizamos este desafio como personalização visual contextualizada, que exige o reconhecimento visual e a recuperação textual de experiências visuais personalizadas pelos VLMs ao interpretar novas imagens. Para resolver esta questão, propomos o CoViP, uma estrutura unificada que trata a legendagem personalizada de imagens como uma tarefa central para a personalização visual contextualizada e aprimora esta capacidade através de pós-treinamento baseado em aprendizado por reforço e geração aumentada por legendas. Introduzimos ainda avaliações de diagnóstico que excluem explicitamente soluções por atalhos textuais e verificam se os VLMs realmente aproveitam o contexto visual. Experimentos extensivos demonstram que os VLMs proprietários e de código aberto existentes apresentam limitações substanciais, enquanto o CoViP não só melhora a legendagem personalizada de imagens, mas também produz ganhos holísticos em diversas tarefas de personalização subsequentes. Estes resultados destacam o CoViP como uma etapa crucial para viabilizar uma personalização visual contextualizada robusta e generalizável.

English

Despite recent progress in vision-language models (VLMs), existing approaches often fail to generate personalized responses based on the user's specific experiences, as they lack the ability to associate visual inputs with a user's accumulated visual-textual context. We newly formalize this challenge as contextualized visual personalization, which requires the visual recognition and textual retrieval of personalized visual experiences by VLMs when interpreting new images. To address this issue, we propose CoViP, a unified framework that treats personalized image captioning as a core task for contextualized visual personalization and improves this capability through reinforcement-learning-based post-training and caption-augmented generation. We further introduce diagnostic evaluations that explicitly rule out textual shortcut solutions and verify whether VLMs truly leverage visual context. Extensive experiments demonstrate that existing open-source and proprietary VLMs exhibit substantial limitations, while CoViP not only improves personalized image captioning but also yields holistic gains across downstream personalization tasks. These results highlight CoViP as a crucial stage for enabling robust and generalizable contextualized visual personalization.

Personalização Visual Contextualizada em Modelos de Visão e Linguagem

Contextualized Visual Personalization in Vision-Language Models

Resumo

Support