MyVLM: VLMs personaliseren voor gebruikersspecifieke vragen
MyVLM: Personalizing VLMs for User-Specific Queries
March 21, 2024
Auteurs: Yuval Alaluf, Elad Richardson, Sergey Tulyakov, Kfir Aberman, Daniel Cohen-Or
cs.AI
Samenvatting
Recente grootschalige visueel-taalkundige modellen (VLMs) hebben opmerkelijke
capaciteiten getoond in het begrijpen en genereren van tekstuele beschrijvingen voor visuele
inhoud. Deze modellen missen echter een begrip van gebruikersspecifieke concepten.
In dit werk zetten we een eerste stap richting de personalisatie van VLMs, waardoor
ze gebruikersspecifieke concepten kunnen leren en erover kunnen redeneren. We onderzoeken bijvoorbeeld
of deze modellen kunnen leren om jou in een afbeelding te herkennen en te communiceren
wat je aan het doen bent, waarbij het model wordt afgestemd op jouw persoonlijke ervaringen
en relaties. Om effectief een verscheidenheid aan gebruikersspecifieke concepten te herkennen,
verrijken we het VLM met externe conceptkoppen die fungeren als schakelaars voor het model, waardoor het VLM
de aanwezigheid van specifieke doelconcepten in een gegeven afbeelding kan identificeren. Nadat het concept is herkend,
leren we een nieuw concept-embedding in de tussenliggende kenmerkruimte van het VLM. Deze embedding
heeft als taak om het taalmodel te begeleiden bij het natuurlijk integreren van het doelconcept in zijn gegenereerde reactie.
We passen onze techniek toe op BLIP-2 en LLaVA voor gepersonaliseerde beeldbeschrijving en tonen verder de toepasbaarheid ervan voor
gepersonaliseerde visuele vraagbeantwoording. Onze experimenten demonstreren ons vermogen
om te generaliseren naar ongeziene afbeeldingen van geleerde concepten, terwijl het modelgedrag op niet-gerelateerde invoer behouden blijft.
English
Recent large-scale vision-language models (VLMs) have demonstrated remarkable
capabilities in understanding and generating textual descriptions for visual
content. However, these models lack an understanding of user-specific concepts.
In this work, we take a first step toward the personalization of VLMs, enabling
them to learn and reason over user-provided concepts. For example, we explore
whether these models can learn to recognize you in an image and communicate
what you are doing, tailoring the model to reflect your personal experiences
and relationships. To effectively recognize a variety of user-specific
concepts, we augment the VLM with external concept heads that function as
toggles for the model, enabling the VLM to identify the presence of specific
target concepts in a given image. Having recognized the concept, we learn a new
concept embedding in the intermediate feature space of the VLM. This embedding
is tasked with guiding the language model to naturally integrate the target
concept in its generated response. We apply our technique to BLIP-2 and LLaVA
for personalized image captioning and further show its applicability for
personalized visual question-answering. Our experiments demonstrate our ability
to generalize to unseen images of learned concepts while preserving the model
behavior on unrelated inputs.