Erinnern, Abrufen und Generieren: Verstehen unendlicher visueller Konzepte als Ihr personalisierter Assistent
Remember, Retrieve and Generate: Understanding Infinite Visual Concepts as Your Personalized Assistant
October 17, 2024
Autoren: Haoran Hao, Jiaming Han, Changsheng Li, Yu-Feng Li, Xiangyu Yue
cs.AI
Zusammenfassung
Die Entwicklung großer Sprachmodelle (LLMs) hat die Fähigkeiten multimodaler LLMs (MLLMs) als allgemeine Assistenten signifikant verbessert. Allerdings beschränkt der Mangel an benutzerspezifischem Wissen noch immer ihre Anwendung im täglichen Leben der Menschen. In diesem Artikel stellen wir das Retrieval Augmented Personalization (RAP) Framework für die Personalisierung von MLLMs vor. Ausgehend von einem allgemeinen MLLM verwandeln wir ihn in drei Schritten in einen personalisierten Assistenten. (a) Erinnern: Wir entwerfen eine Schlüssel-Wert-Datenbank, um benutzerbezogene Informationen wie den Namen des Benutzers, Avatar und andere Attribute zu speichern. (b) Abrufen: Wenn der Benutzer ein Gespräch beginnt, wird RAP relevante Informationen aus der Datenbank mithilfe eines multimodalen Retrievers abrufen. (c) Generieren: Die Eingabeabfrage und die abgerufenen Konzeptinformationen werden in die MLLMs eingespeist, um personalisierte, wissensgestützte Antworten zu generieren. Im Gegensatz zu früheren Methoden ermöglicht RAP die Echtzeitkonzeptbearbeitung durch Aktualisierung der externen Datenbank. Um die Generierungsqualität und die Ausrichtung auf benutzerspezifische Informationen weiter zu verbessern, entwerfen wir eine Pipeline für die Datensammlung und erstellen einen spezialisierten Datensatz für das personalisierte Training von MLLMs. Basierend auf dem Datensatz trainieren wir eine Reihe von MLLMs als personalisierte multimodale Assistenten. Durch Vortraining auf einem groß angelegten Datensatz können sich RAP-MLLMs auf unendliche visuelle Konzepte generalisieren, ohne zusätzliches Feintuning. Unsere Modelle zeigen eine herausragende Flexibilität und Generierungsqualität bei einer Vielzahl von Aufgaben, wie personalisierte Bildunterschriften, Fragebeantwortung und visuelle Erkennung. Der Code, die Daten und die Modelle sind unter https://github.com/Hoar012/RAP-MLLM verfügbar.
English
The development of large language models (LLMs) has significantly enhanced
the capabilities of multimodal LLMs (MLLMs) as general assistants. However,
lack of user-specific knowledge still restricts their application in human's
daily life. In this paper, we introduce the Retrieval Augmented Personalization
(RAP) framework for MLLMs' personalization. Starting from a general MLLM, we
turn it into a personalized assistant in three steps. (a) Remember: We design a
key-value database to store user-related information, e.g., user's name, avatar
and other attributes. (b) Retrieve: When the user initiates a conversation, RAP
will retrieve relevant information from the database using a multimodal
retriever. (c) Generate: The input query and retrieved concepts' information
are fed into MLLMs to generate personalized, knowledge-augmented responses.
Unlike previous methods, RAP allows real-time concept editing via updating the
external database. To further improve generation quality and alignment with
user-specific information, we design a pipeline for data collection and create
a specialized dataset for personalized training of MLLMs. Based on the dataset,
we train a series of MLLMs as personalized multimodal assistants. By
pretraining on large-scale dataset, RAP-MLLMs can generalize to infinite visual
concepts without additional finetuning. Our models demonstrate outstanding
flexibility and generation quality across a variety of tasks, such as
personalized image captioning, question answering and visual recognition. The
code, data and models are available at https://github.com/Hoar012/RAP-MLLM.Summary
AI-Generated Summary