ChatPaper.aiChatPaper

MyVLM: ユーザー固有のクエリに向けたVLMのパーソナライズ

MyVLM: Personalizing VLMs for User-Specific Queries

March 21, 2024
著者: Yuval Alaluf, Elad Richardson, Sergey Tulyakov, Kfir Aberman, Daniel Cohen-Or
cs.AI

要旨

近年の大規模視覚言語モデル(VLM)は、視覚コンテンツの理解とテキスト記述の生成において顕著な能力を示してきました。しかし、これらのモデルはユーザー固有の概念を理解する能力を欠いています。本研究では、VLMのパーソナライゼーションに向けた第一歩を踏み出し、ユーザーが提供する概念を学習し、推論することを可能にします。例えば、これらのモデルが画像中のあなたを認識し、あなたが何をしているかを伝えることを学習できるかどうかを探り、モデルをあなたの個人的な経験や関係性を反映するように調整します。多様なユーザー固有の概念を効果的に認識するために、VLMに外部の概念ヘッドを追加し、これらをモデルのトグルとして機能させ、特定のターゲット概念が画像内に存在するかを識別できるようにします。概念を認識した後、VLMの中間特徴空間に新しい概念埋め込みを学習します。この埋め込みは、言語モデルが生成する応答にターゲット概念を自然に統合するよう導く役割を担います。本手法をBLIP-2とLLaVAに適用し、パーソナライズされた画像キャプショニングを実現し、さらにパーソナライズされた視覚的質問応答への適用可能性を示します。実験結果は、学習した概念の未見画像への一般化能力を維持しつつ、無関係な入力に対するモデルの挙動を保持する能力を実証しています。
English
Recent large-scale vision-language models (VLMs) have demonstrated remarkable capabilities in understanding and generating textual descriptions for visual content. However, these models lack an understanding of user-specific concepts. In this work, we take a first step toward the personalization of VLMs, enabling them to learn and reason over user-provided concepts. For example, we explore whether these models can learn to recognize you in an image and communicate what you are doing, tailoring the model to reflect your personal experiences and relationships. To effectively recognize a variety of user-specific concepts, we augment the VLM with external concept heads that function as toggles for the model, enabling the VLM to identify the presence of specific target concepts in a given image. Having recognized the concept, we learn a new concept embedding in the intermediate feature space of the VLM. This embedding is tasked with guiding the language model to naturally integrate the target concept in its generated response. We apply our technique to BLIP-2 and LLaVA for personalized image captioning and further show its applicability for personalized visual question-answering. Our experiments demonstrate our ability to generalize to unseen images of learned concepts while preserving the model behavior on unrelated inputs.

Summary

AI-Generated Summary

PDF172December 15, 2024