Personalizzazione Visiva Contestualizzata nei Modelli Visione-Linguaggio

Abstract

Nonostante i recenti progressi nei modelli visione-linguaggio (VLM), gli approcci esistenti spesso falliscono nel generare risposte personalizzate basate sulle esperienze specifiche dell'utente, poiché mancano della capacità di associare input visivi con il contesto visivo-testuale accumulato dall'utente. Formalizziamo questa sfida come *personalizzazione visiva contestualizzata*, che richiede il riconoscimento visivo e il recupero testuale delle esperienze visive personalizzate da parte dei VLM durante l'interpretazione di nuove immagini. Per affrontare questo problema, proponiamo CoViP, un framework unificato che tratta la creazione di didascalie per immagini personalizzate come un compito fondamentale per la personalizzazione visiva contestualizzata e migliora questa capacità attraverso un post-addestramento basato su apprendimento per rinforzo e una generazione potenziata dalle didascalie. Introduciamo inoltre valutazioni diagnostiche che escludono esplicitamente soluzioni basate su scorciatoie testuali e verificano se i VLM sfruttano veramente il contesto visivo. Esperimenti estensivi dimostrano che i VLM open-source e proprietari esistenti presentano limitazioni sostanziali, mentre CoViP non solo migliora la creazione di didascalie personalizzate, ma produce anche guadagni olistici attraverso i compiti di personalizzazione downstream. Questi risultati evidenziano CoViP come una fase cruciale per abilitare una personalizzazione visiva contestualizzata robusta e generalizzabile.

English

Despite recent progress in vision-language models (VLMs), existing approaches often fail to generate personalized responses based on the user's specific experiences, as they lack the ability to associate visual inputs with a user's accumulated visual-textual context. We newly formalize this challenge as contextualized visual personalization, which requires the visual recognition and textual retrieval of personalized visual experiences by VLMs when interpreting new images. To address this issue, we propose CoViP, a unified framework that treats personalized image captioning as a core task for contextualized visual personalization and improves this capability through reinforcement-learning-based post-training and caption-augmented generation. We further introduce diagnostic evaluations that explicitly rule out textual shortcut solutions and verify whether VLMs truly leverage visual context. Extensive experiments demonstrate that existing open-source and proprietary VLMs exhibit substantial limitations, while CoViP not only improves personalized image captioning but also yields holistic gains across downstream personalization tasks. These results highlight CoViP as a crucial stage for enabling robust and generalizable contextualized visual personalization.

Personalizzazione Visiva Contestualizzata nei Modelli Visione-Linguaggio

Contextualized Visual Personalization in Vision-Language Models

Abstract

Support