MyVLM : Personnalisation des VLMs pour les requêtes spécifiques à l'utilisateur

papers.abstract

Les récents modèles de vision et langage à grande échelle (VLMs) ont démontré des capacités remarquables dans la compréhension et la génération de descriptions textuelles pour le contenu visuel. Cependant, ces modèles manquent de compréhension des concepts spécifiques à l'utilisateur. Dans ce travail, nous faisons un premier pas vers la personnalisation des VLMs, en leur permettant d'apprendre et de raisonner sur des concepts fournis par l'utilisateur. Par exemple, nous explorons si ces modèles peuvent apprendre à vous reconnaître dans une image et à communiquer ce que vous êtes en train de faire, adaptant ainsi le modèle pour refléter vos expériences personnelles et vos relations. Pour reconnaître efficacement une variété de concepts spécifiques à l'utilisateur, nous enrichissons le VLM avec des têtes de concept externes qui fonctionnent comme des interrupteurs pour le modèle, permettant au VLM d'identifier la présence de concepts cibles spécifiques dans une image donnée. Une fois le concept reconnu, nous apprenons un nouvel embedding de concept dans l'espace de caractéristiques intermédiaires du VLM. Cet embedding a pour tâche de guider le modèle de langage à intégrer naturellement le concept cible dans sa réponse générée. Nous appliquons notre technique à BLIP-2 et LLaVA pour la génération de légendes d'images personnalisées et montrons en outre son applicabilité pour les réponses personnalisées à des questions visuelles. Nos expériences démontrent notre capacité à généraliser à des images non vues de concepts appris tout en préservant le comportement du modèle sur des entrées non liées.

English

Recent large-scale vision-language models (VLMs) have demonstrated remarkable capabilities in understanding and generating textual descriptions for visual content. However, these models lack an understanding of user-specific concepts. In this work, we take a first step toward the personalization of VLMs, enabling them to learn and reason over user-provided concepts. For example, we explore whether these models can learn to recognize you in an image and communicate what you are doing, tailoring the model to reflect your personal experiences and relationships. To effectively recognize a variety of user-specific concepts, we augment the VLM with external concept heads that function as toggles for the model, enabling the VLM to identify the presence of specific target concepts in a given image. Having recognized the concept, we learn a new concept embedding in the intermediate feature space of the VLM. This embedding is tasked with guiding the language model to naturally integrate the target concept in its generated response. We apply our technique to BLIP-2 and LLaVA for personalized image captioning and further show its applicability for personalized visual question-answering. Our experiments demonstrate our ability to generalize to unseen images of learned concepts while preserving the model behavior on unrelated inputs.

MyVLM : Personnalisation des VLMs pour les requêtes spécifiques à l'utilisateur

MyVLM: Personalizing VLMs for User-Specific Queries

papers.abstract

Support