ChatPaper.aiChatPaper

MyVLM: Personalización de VLMs para consultas específicas del usuario

MyVLM: Personalizing VLMs for User-Specific Queries

March 21, 2024
Autores: Yuval Alaluf, Elad Richardson, Sergey Tulyakov, Kfir Aberman, Daniel Cohen-Or
cs.AI

Resumen

Los modelos recientes de visión y lenguaje a gran escala (VLMs, por sus siglas en inglés) han demostrado capacidades notables para comprender y generar descripciones textuales de contenido visual. Sin embargo, estos modelos carecen de comprensión de conceptos específicos del usuario. En este trabajo, damos un primer paso hacia la personalización de los VLMs, permitiéndoles aprender y razonar sobre conceptos proporcionados por el usuario. Por ejemplo, exploramos si estos modelos pueden aprender a reconocerte en una imagen y comunicar lo que estás haciendo, adaptando el modelo para reflejar tus experiencias personales y relaciones. Para reconocer efectivamente una variedad de conceptos específicos del usuario, aumentamos el VLM con cabezales de conceptos externos que funcionan como interruptores para el modelo, permitiendo que el VLM identifique la presencia de conceptos objetivo específicos en una imagen dada. Una vez reconocido el concepto, aprendemos una nueva incrustación de conceptos en el espacio de características intermedias del VLM. Esta incrustación tiene la tarea de guiar al modelo de lenguaje para integrar naturalmente el concepto objetivo en su respuesta generada. Aplicamos nuestra técnica a BLIP-2 y LLaVA para la generación de subtítulos de imágenes personalizados y además mostramos su aplicabilidad para la respuesta visual de preguntas personalizadas. Nuestros experimentos demuestran nuestra capacidad para generalizar a imágenes no vistas de conceptos aprendidos, preservando el comportamiento del modelo en entradas no relacionadas.
English
Recent large-scale vision-language models (VLMs) have demonstrated remarkable capabilities in understanding and generating textual descriptions for visual content. However, these models lack an understanding of user-specific concepts. In this work, we take a first step toward the personalization of VLMs, enabling them to learn and reason over user-provided concepts. For example, we explore whether these models can learn to recognize you in an image and communicate what you are doing, tailoring the model to reflect your personal experiences and relationships. To effectively recognize a variety of user-specific concepts, we augment the VLM with external concept heads that function as toggles for the model, enabling the VLM to identify the presence of specific target concepts in a given image. Having recognized the concept, we learn a new concept embedding in the intermediate feature space of the VLM. This embedding is tasked with guiding the language model to naturally integrate the target concept in its generated response. We apply our technique to BLIP-2 and LLaVA for personalized image captioning and further show its applicability for personalized visual question-answering. Our experiments demonstrate our ability to generalize to unseen images of learned concepts while preserving the model behavior on unrelated inputs.

Summary

AI-Generated Summary

PDF172December 15, 2024