ChatPaper.aiChatPaper

MyVLM: 사용자 맞춤형 질의를 위한 VLMs 개인화

MyVLM: Personalizing VLMs for User-Specific Queries

March 21, 2024
저자: Yuval Alaluf, Elad Richardson, Sergey Tulyakov, Kfir Aberman, Daniel Cohen-Or
cs.AI

초록

최근 대규모 시각-언어 모델(VLMs)은 시각적 콘텐츠에 대한 텍스트 설명을 이해하고 생성하는 데 있어 뛰어난 능력을 보여주었습니다. 그러나 이러한 모델들은 사용자별 개념을 이해하지 못하는 한계가 있습니다. 본 연구에서는 VLMs의 개인화를 위한 첫걸음을 내딛어, 사용자가 제공한 개념을 학습하고 추론할 수 있도록 합니다. 예를 들어, 이러한 모델들이 이미지에서 사용자를 인식하고 사용자가 무엇을 하고 있는지 설명할 수 있는지 탐구하며, 모델이 개인의 경험과 관계를 반영하도록 맞춤화합니다. 다양한 사용자별 개념을 효과적으로 인식하기 위해, 우리는 VLMs에 외부 개념 헤드를 추가하여 모델이 주어진 이미지에서 특정 대상 개념의 존재를 식별할 수 있도록 합니다. 개념을 인식한 후, 우리는 VLMs의 중간 특징 공간에서 새로운 개념 임베딩을 학습합니다. 이 임베딩은 언어 모델이 생성한 응답에 대상 개념을 자연스럽게 통합하도록 안내하는 역할을 합니다. 우리는 이 기술을 BLIP-2와 LLaVA에 적용하여 개인화된 이미지 캡셔닝을 수행하고, 더 나아가 개인화된 시각 질의응답에 대한 적용 가능성을 보여줍니다. 우리의 실험은 학습된 개념의 보이지 않는 이미지에 대해 일반화할 수 있는 능력을 입증하면서, 관련 없는 입력에 대한 모델의 동작을 유지합니다.
English
Recent large-scale vision-language models (VLMs) have demonstrated remarkable capabilities in understanding and generating textual descriptions for visual content. However, these models lack an understanding of user-specific concepts. In this work, we take a first step toward the personalization of VLMs, enabling them to learn and reason over user-provided concepts. For example, we explore whether these models can learn to recognize you in an image and communicate what you are doing, tailoring the model to reflect your personal experiences and relationships. To effectively recognize a variety of user-specific concepts, we augment the VLM with external concept heads that function as toggles for the model, enabling the VLM to identify the presence of specific target concepts in a given image. Having recognized the concept, we learn a new concept embedding in the intermediate feature space of the VLM. This embedding is tasked with guiding the language model to naturally integrate the target concept in its generated response. We apply our technique to BLIP-2 and LLaVA for personalized image captioning and further show its applicability for personalized visual question-answering. Our experiments demonstrate our ability to generalize to unseen images of learned concepts while preserving the model behavior on unrelated inputs.

Summary

AI-Generated Summary

PDF172December 15, 2024