Se souvenir, récupérer et générer : Comprendre les concepts visuels infinis en tant que votre assistant personnalisé
Remember, Retrieve and Generate: Understanding Infinite Visual Concepts as Your Personalized Assistant
October 17, 2024
Auteurs: Haoran Hao, Jiaming Han, Changsheng Li, Yu-Feng Li, Xiangyu Yue
cs.AI
Résumé
Le développement de grands modèles de langage (LLMs) a considérablement amélioré les capacités des modèles de langage multimodaux (MLLMs) en tant qu'assistants généraux. Cependant, le manque de connaissances spécifiques à l'utilisateur limite encore leur application dans la vie quotidienne des humains. Dans cet article, nous présentons le cadre de Personnalisation Augmentée par Récupération (RAP) pour la personnalisation des MLLMs. À partir d'un MLLM général, nous le transformons en un assistant personnalisé en trois étapes. (a) Se souvenir : Nous concevons une base de données clé-valeur pour stocker les informations liées à l'utilisateur, telles que le nom de l'utilisateur, l'avatar et d'autres attributs. (b) Récupérer : Lorsque l'utilisateur lance une conversation, RAP récupérera des informations pertinentes dans la base de données en utilisant un récupérateur multimodal. (c) Générer : La requête d'entrée et les informations des concepts récupérés sont alimentées dans les MLLMs pour générer des réponses personnalisées, augmentées de connaissances. Contrairement aux méthodes précédentes, RAP permet une édition de concepts en temps réel via la mise à jour de la base de données externe. Pour améliorer davantage la qualité de génération et l'alignement avec les informations spécifiques à l'utilisateur, nous concevons un pipeline pour la collecte de données et créons un ensemble de données spécialisé pour l'entraînement personnalisé des MLLMs. Sur la base de l'ensemble de données, nous entraînons une série de MLLMs en tant qu'assistants multimodaux personnalisés. En pré-entraînant sur un ensemble de données à grande échelle, les RAP-MLLMs peuvent généraliser à une infinité de concepts visuels sans ajustement supplémentaire. Nos modèles démontrent une flexibilité exceptionnelle et une qualité de génération dans une variété de tâches, telles que la légende d'images personnalisée, la réponse à des questions et la reconnaissance visuelle. Le code, les données et les modèles sont disponibles sur https://github.com/Hoar012/RAP-MLLM.
English
The development of large language models (LLMs) has significantly enhanced
the capabilities of multimodal LLMs (MLLMs) as general assistants. However,
lack of user-specific knowledge still restricts their application in human's
daily life. In this paper, we introduce the Retrieval Augmented Personalization
(RAP) framework for MLLMs' personalization. Starting from a general MLLM, we
turn it into a personalized assistant in three steps. (a) Remember: We design a
key-value database to store user-related information, e.g., user's name, avatar
and other attributes. (b) Retrieve: When the user initiates a conversation, RAP
will retrieve relevant information from the database using a multimodal
retriever. (c) Generate: The input query and retrieved concepts' information
are fed into MLLMs to generate personalized, knowledge-augmented responses.
Unlike previous methods, RAP allows real-time concept editing via updating the
external database. To further improve generation quality and alignment with
user-specific information, we design a pipeline for data collection and create
a specialized dataset for personalized training of MLLMs. Based on the dataset,
we train a series of MLLMs as personalized multimodal assistants. By
pretraining on large-scale dataset, RAP-MLLMs can generalize to infinite visual
concepts without additional finetuning. Our models demonstrate outstanding
flexibility and generation quality across a variety of tasks, such as
personalized image captioning, question answering and visual recognition. The
code, data and models are available at https://github.com/Hoar012/RAP-MLLM.Summary
AI-Generated Summary