MyVLM : Personnalisation des VLMs pour les requêtes spécifiques à l'utilisateur
MyVLM: Personalizing VLMs for User-Specific Queries
March 21, 2024
Auteurs: Yuval Alaluf, Elad Richardson, Sergey Tulyakov, Kfir Aberman, Daniel Cohen-Or
cs.AI
Résumé
Les récents modèles de vision et langage à grande échelle (VLMs) ont démontré des capacités remarquables dans la compréhension et la génération de descriptions textuelles pour le contenu visuel. Cependant, ces modèles manquent de compréhension des concepts spécifiques à l'utilisateur. Dans ce travail, nous faisons un premier pas vers la personnalisation des VLMs, en leur permettant d'apprendre et de raisonner sur des concepts fournis par l'utilisateur. Par exemple, nous explorons si ces modèles peuvent apprendre à vous reconnaître dans une image et à communiquer ce que vous êtes en train de faire, adaptant ainsi le modèle pour refléter vos expériences personnelles et vos relations. Pour reconnaître efficacement une variété de concepts spécifiques à l'utilisateur, nous enrichissons le VLM avec des têtes de concept externes qui fonctionnent comme des interrupteurs pour le modèle, permettant au VLM d'identifier la présence de concepts cibles spécifiques dans une image donnée. Une fois le concept reconnu, nous apprenons un nouvel embedding de concept dans l'espace de caractéristiques intermédiaires du VLM. Cet embedding a pour tâche de guider le modèle de langage à intégrer naturellement le concept cible dans sa réponse générée. Nous appliquons notre technique à BLIP-2 et LLaVA pour la génération de légendes d'images personnalisées et montrons en outre son applicabilité pour les réponses personnalisées à des questions visuelles. Nos expériences démontrent notre capacité à généraliser à des images non vues de concepts appris tout en préservant le comportement du modèle sur des entrées non liées.
English
Recent large-scale vision-language models (VLMs) have demonstrated remarkable
capabilities in understanding and generating textual descriptions for visual
content. However, these models lack an understanding of user-specific concepts.
In this work, we take a first step toward the personalization of VLMs, enabling
them to learn and reason over user-provided concepts. For example, we explore
whether these models can learn to recognize you in an image and communicate
what you are doing, tailoring the model to reflect your personal experiences
and relationships. To effectively recognize a variety of user-specific
concepts, we augment the VLM with external concept heads that function as
toggles for the model, enabling the VLM to identify the presence of specific
target concepts in a given image. Having recognized the concept, we learn a new
concept embedding in the intermediate feature space of the VLM. This embedding
is tasked with guiding the language model to naturally integrate the target
concept in its generated response. We apply our technique to BLIP-2 and LLaVA
for personalized image captioning and further show its applicability for
personalized visual question-answering. Our experiments demonstrate our ability
to generalize to unseen images of learned concepts while preserving the model
behavior on unrelated inputs.Summary
AI-Generated Summary