ChatPaper.aiChatPaper

MeinVLM: Personalisierung von VLMs für benutzerspezifische Anfragen

MyVLM: Personalizing VLMs for User-Specific Queries

March 21, 2024
Autoren: Yuval Alaluf, Elad Richardson, Sergey Tulyakov, Kfir Aberman, Daniel Cohen-Or
cs.AI

Zusammenfassung

In jüngster Zeit haben groß angelegte Vision-Sprach-Modelle (VLMs) bemerkenswerte Fähigkeiten bei der Verständnis und Generierung von textuellen Beschreibungen für visuelle Inhalte gezeigt. Diese Modelle fehlt jedoch ein Verständnis für benutzerspezifische Konzepte. In dieser Arbeit gehen wir einen ersten Schritt in Richtung Personalisierung von VLMs, um ihnen zu ermöglichen, benutzerspezifische Konzepte zu erlernen und zu überdenken. Wir untersuchen beispielsweise, ob diese Modelle lernen können, Sie auf einem Bild zu erkennen und zu kommunizieren, was Sie tun, wodurch das Modell angepasst wird, um Ihre persönlichen Erfahrungen und Beziehungen widerzuspiegeln. Um eine Vielzahl von benutzerspezifischen Konzepten effektiv zu erkennen, erweitern wir das VLM mit externen Konzept-Köpfen, die als Schalter für das Modell fungieren und es ermöglichen, die Anwesenheit spezifischer Zielkonzepte in einem gegebenen Bild zu identifizieren. Nachdem das Konzept erkannt wurde, erlernen wir eine neue Konzept-Einbettung im Zwischenmerkmalraum des VLM. Diese Einbettung ist damit beauftragt, das Sprachmodell dabei zu unterstützen, das Zielkonzept natürlich in seine generierte Antwort zu integrieren. Wir wenden unsere Technik auf BLIP-2 und LLaVA für personalisierte Bildunterschriften an und zeigen weiterhin deren Anwendbarkeit für personalisierte visuelle Frage-Antwort-Systeme. Unsere Experimente zeigen unsere Fähigkeit zur Verallgemeinerung auf unbekannte Bilder von erlernten Konzepten, während das Modellverhalten bei nicht verwandten Eingaben erhalten bleibt.
English
Recent large-scale vision-language models (VLMs) have demonstrated remarkable capabilities in understanding and generating textual descriptions for visual content. However, these models lack an understanding of user-specific concepts. In this work, we take a first step toward the personalization of VLMs, enabling them to learn and reason over user-provided concepts. For example, we explore whether these models can learn to recognize you in an image and communicate what you are doing, tailoring the model to reflect your personal experiences and relationships. To effectively recognize a variety of user-specific concepts, we augment the VLM with external concept heads that function as toggles for the model, enabling the VLM to identify the presence of specific target concepts in a given image. Having recognized the concept, we learn a new concept embedding in the intermediate feature space of the VLM. This embedding is tasked with guiding the language model to naturally integrate the target concept in its generated response. We apply our technique to BLIP-2 and LLaVA for personalized image captioning and further show its applicability for personalized visual question-answering. Our experiments demonstrate our ability to generalize to unseen images of learned concepts while preserving the model behavior on unrelated inputs.

Summary

AI-Generated Summary

PDF172December 15, 2024