MyVLM: Personalizando VLMs para Consultas Específicas do Usuário
MyVLM: Personalizing VLMs for User-Specific Queries
March 21, 2024
Autores: Yuval Alaluf, Elad Richardson, Sergey Tulyakov, Kfir Aberman, Daniel Cohen-Or
cs.AI
Resumo
Modelos de visão e linguagem em grande escala (VLMs, na sigla em inglês) recentes demonstraram capacidades notáveis na compreensão e geração de descrições textuais para conteúdo visual. No entanto, esses modelos carecem de uma compreensão de conceitos específicos do usuário. Neste trabalho, damos um primeiro passo em direção à personalização de VLMs, permitindo que eles aprendam e raciocinem sobre conceitos fornecidos pelo usuário. Por exemplo, exploramos se esses modelos podem aprender a reconhecer você em uma imagem e comunicar o que você está fazendo, adaptando o modelo para refletir suas experiências pessoais e relacionamentos. Para reconhecer efetivamente uma variedade de conceitos específicos do usuário, aumentamos o VLM com cabeças de conceito externas que funcionam como interruptores para o modelo, permitindo que o VLM identifique a presença de conceitos-alvo específicos em uma determinada imagem. Após reconhecer o conceito, aprendemos uma nova incorporação de conceito no espaço de características intermediárias do VLM. Essa incorporação tem a tarefa de guiar o modelo de linguagem para integrar naturalmente o conceito-alvo em sua resposta gerada. Aplicamos nossa técnica ao BLIP-2 e ao LLaVA para legendagem de imagens personalizada e ainda mostramos sua aplicabilidade para questionamento visual personalizado. Nossos experimentos demonstram nossa capacidade de generalizar para imagens não vistas de conceitos aprendidos, preservando o comportamento do modelo em entradas não relacionadas.
English
Recent large-scale vision-language models (VLMs) have demonstrated remarkable
capabilities in understanding and generating textual descriptions for visual
content. However, these models lack an understanding of user-specific concepts.
In this work, we take a first step toward the personalization of VLMs, enabling
them to learn and reason over user-provided concepts. For example, we explore
whether these models can learn to recognize you in an image and communicate
what you are doing, tailoring the model to reflect your personal experiences
and relationships. To effectively recognize a variety of user-specific
concepts, we augment the VLM with external concept heads that function as
toggles for the model, enabling the VLM to identify the presence of specific
target concepts in a given image. Having recognized the concept, we learn a new
concept embedding in the intermediate feature space of the VLM. This embedding
is tasked with guiding the language model to naturally integrate the target
concept in its generated response. We apply our technique to BLIP-2 and LLaVA
for personalized image captioning and further show its applicability for
personalized visual question-answering. Our experiments demonstrate our ability
to generalize to unseen images of learned concepts while preserving the model
behavior on unrelated inputs.