MyVLM: Personalizzazione dei Modelli Linguistici Visivi per Query Specifiche dell'Utente
MyVLM: Personalizing VLMs for User-Specific Queries
March 21, 2024
Autori: Yuval Alaluf, Elad Richardson, Sergey Tulyakov, Kfir Aberman, Daniel Cohen-Or
cs.AI
Abstract
I recenti modelli su larga scala di visione e linguaggio (VLMs) hanno dimostrato capacità straordinarie nel comprendere e generare descrizioni testuali per contenuti visivi. Tuttavia, questi modelli mancano di una comprensione dei concetti specifici dell'utente. In questo lavoro, compiamo un primo passo verso la personalizzazione dei VLMs, consentendo loro di apprendere e ragionare sui concetti forniti dall'utente. Ad esempio, esploriamo se questi modelli possono imparare a riconoscerti in un'immagine e comunicare cosa stai facendo, adattando il modello per riflettere le tue esperienze personali e relazioni. Per riconoscere efficacemente una varietà di concetti specifici dell'utente, potenziamo il VLM con teste concettuali esterne che funzionano come interruttori per il modello, consentendo al VLM di identificare la presenza di specifici concetti target in una determinata immagine. Dopo aver riconosciuto il concetto, apprendiamo un nuovo embedding concettuale nello spazio delle caratteristiche intermedie del VLM. Questo embedding ha il compito di guidare il modello linguistico a integrare naturalmente il concetto target nella risposta generata. Applichiamo la nostra tecnica a BLIP-2 e LLaVA per la creazione di didascalie personalizzate per immagini e dimostriamo ulteriormente la sua applicabilità per risposte personalizzate a domande visive. I nostri esperimenti dimostrano la nostra capacità di generalizzare a immagini non viste di concetti appresi, preservando il comportamento del modello su input non correlati.
English
Recent large-scale vision-language models (VLMs) have demonstrated remarkable
capabilities in understanding and generating textual descriptions for visual
content. However, these models lack an understanding of user-specific concepts.
In this work, we take a first step toward the personalization of VLMs, enabling
them to learn and reason over user-provided concepts. For example, we explore
whether these models can learn to recognize you in an image and communicate
what you are doing, tailoring the model to reflect your personal experiences
and relationships. To effectively recognize a variety of user-specific
concepts, we augment the VLM with external concept heads that function as
toggles for the model, enabling the VLM to identify the presence of specific
target concepts in a given image. Having recognized the concept, we learn a new
concept embedding in the intermediate feature space of the VLM. This embedding
is tasked with guiding the language model to naturally integrate the target
concept in its generated response. We apply our technique to BLIP-2 and LLaVA
for personalized image captioning and further show its applicability for
personalized visual question-answering. Our experiments demonstrate our ability
to generalize to unseen images of learned concepts while preserving the model
behavior on unrelated inputs.