MyVLM: Personalizzazione dei Modelli Linguistici Visivi per Query Specifiche dell'Utente

Abstract

I recenti modelli su larga scala di visione e linguaggio (VLMs) hanno dimostrato capacità straordinarie nel comprendere e generare descrizioni testuali per contenuti visivi. Tuttavia, questi modelli mancano di una comprensione dei concetti specifici dell'utente. In questo lavoro, compiamo un primo passo verso la personalizzazione dei VLMs, consentendo loro di apprendere e ragionare sui concetti forniti dall'utente. Ad esempio, esploriamo se questi modelli possono imparare a riconoscerti in un'immagine e comunicare cosa stai facendo, adattando il modello per riflettere le tue esperienze personali e relazioni. Per riconoscere efficacemente una varietà di concetti specifici dell'utente, potenziamo il VLM con teste concettuali esterne che funzionano come interruttori per il modello, consentendo al VLM di identificare la presenza di specifici concetti target in una determinata immagine. Dopo aver riconosciuto il concetto, apprendiamo un nuovo embedding concettuale nello spazio delle caratteristiche intermedie del VLM. Questo embedding ha il compito di guidare il modello linguistico a integrare naturalmente il concetto target nella risposta generata. Applichiamo la nostra tecnica a BLIP-2 e LLaVA per la creazione di didascalie personalizzate per immagini e dimostriamo ulteriormente la sua applicabilità per risposte personalizzate a domande visive. I nostri esperimenti dimostrano la nostra capacità di generalizzare a immagini non viste di concetti appresi, preservando il comportamento del modello su input non correlati.

English

Recent large-scale vision-language models (VLMs) have demonstrated remarkable capabilities in understanding and generating textual descriptions for visual content. However, these models lack an understanding of user-specific concepts. In this work, we take a first step toward the personalization of VLMs, enabling them to learn and reason over user-provided concepts. For example, we explore whether these models can learn to recognize you in an image and communicate what you are doing, tailoring the model to reflect your personal experiences and relationships. To effectively recognize a variety of user-specific concepts, we augment the VLM with external concept heads that function as toggles for the model, enabling the VLM to identify the presence of specific target concepts in a given image. Having recognized the concept, we learn a new concept embedding in the intermediate feature space of the VLM. This embedding is tasked with guiding the language model to naturally integrate the target concept in its generated response. We apply our technique to BLIP-2 and LLaVA for personalized image captioning and further show its applicability for personalized visual question-answering. Our experiments demonstrate our ability to generalize to unseen images of learned concepts while preserving the model behavior on unrelated inputs.

MyVLM: Personalizzazione dei Modelli Linguistici Visivi per Query Specifiche dell'Utente

MyVLM: Personalizing VLMs for User-Specific Queries

Abstract

Support