ChatPaper.aiChatPaper

МойVLM: Персонализация VLM для пользовательских запросов.

MyVLM: Personalizing VLMs for User-Specific Queries

March 21, 2024
Авторы: Yuval Alaluf, Elad Richardson, Sergey Tulyakov, Kfir Aberman, Daniel Cohen-Or
cs.AI

Аннотация

Недавние модели видео-языкового масштаба (VLM) продемонстрировали выдающиеся способности в понимании и создании текстовых описаний для визуального контента. Однако эти модели лишены понимания концепций, специфичных для пользователя. В данной работе мы делаем первый шаг к персонализации моделей VLM, позволяя им изучать и рассуждать над концепциями, предоставленными пользователем. Например, мы исследуем, могут ли эти модели научиться распознавать вас на изображении и описывать ваши действия, настраивая модель для отражения ваших личных опытов и отношений. Для эффективного распознавания различных пользовательских концепций мы расширяем VLM внешними концепт-головами, которые функционируют как переключатели для модели, позволяя VLM определять наличие определенных целевых концепций на данном изображении. После распознавания концепции мы изучаем новое встраивание концепции в промежуточном пространстве признаков VLM. Это встраивание направлено на то, чтобы направлять языковую модель к естественной интеграции целевой концепции в ее созданный ответ. Мы применяем наш метод к BLIP-2 и LLaVA для персонализированного описания изображений и также показываем его применимость для персонализированного визуального вопросно-ответного взаимодействия. Наши эксперименты демонстрируют нашу способность к обобщению на невиденные изображения изученных концепций, сохраняя при этом поведение модели на несвязанных входах.
English
Recent large-scale vision-language models (VLMs) have demonstrated remarkable capabilities in understanding and generating textual descriptions for visual content. However, these models lack an understanding of user-specific concepts. In this work, we take a first step toward the personalization of VLMs, enabling them to learn and reason over user-provided concepts. For example, we explore whether these models can learn to recognize you in an image and communicate what you are doing, tailoring the model to reflect your personal experiences and relationships. To effectively recognize a variety of user-specific concepts, we augment the VLM with external concept heads that function as toggles for the model, enabling the VLM to identify the presence of specific target concepts in a given image. Having recognized the concept, we learn a new concept embedding in the intermediate feature space of the VLM. This embedding is tasked with guiding the language model to naturally integrate the target concept in its generated response. We apply our technique to BLIP-2 and LLaVA for personalized image captioning and further show its applicability for personalized visual question-answering. Our experiments demonstrate our ability to generalize to unseen images of learned concepts while preserving the model behavior on unrelated inputs.

Summary

AI-Generated Summary

PDF172December 15, 2024