Recordar, Recuperar y Generar: Comprendiendo Conceptos Visuales Infinitos como tu Asistente Personalizado
Remember, Retrieve and Generate: Understanding Infinite Visual Concepts as Your Personalized Assistant
October 17, 2024
Autores: Haoran Hao, Jiaming Han, Changsheng Li, Yu-Feng Li, Xiangyu Yue
cs.AI
Resumen
El desarrollo de modelos de lenguaje grandes (LLMs, por sus siglas en inglés) ha mejorado significativamente las capacidades de los modelos de lenguaje multimodales (MLLMs) como asistentes generales. Sin embargo, la falta de conocimiento específico del usuario aún restringe su aplicación en la vida diaria de las personas. En este artículo, presentamos el marco de Personalización Aumentada por Recuperación (RAP, por sus siglas en inglés) para la personalización de MLLMs. Partiendo de un MLLM general, lo convertimos en un asistente personalizado en tres pasos. (a) Recordar: Diseñamos una base de datos clave-valor para almacenar información relacionada con el usuario, como el nombre del usuario, avatar y otros atributos. (b) Recuperar: Cuando el usuario inicia una conversación, RAP recuperará información relevante de la base de datos utilizando un recuperador multimodal. (c) Generar: La consulta de entrada y la información de los conceptos recuperados se introducen en los MLLMs para generar respuestas personalizadas, enriquecidas con conocimiento. A diferencia de los métodos anteriores, RAP permite la edición de conceptos en tiempo real mediante la actualización de la base de datos externa. Para mejorar aún más la calidad de generación y la alineación con la información específica del usuario, diseñamos un proceso de recopilación de datos y creamos un conjunto de datos especializado para el entrenamiento personalizado de MLLMs. Basándonos en el conjunto de datos, entrenamos una serie de MLLMs como asistentes multimodales personalizados. Al preentrenar en un conjunto de datos a gran escala, los RAP-MLLMs pueden generalizar a conceptos visuales infinitos sin necesidad de ajustes adicionales. Nuestros modelos demuestran una flexibilidad excepcional y una calidad de generación destacada en una variedad de tareas, como la descripción personalizada de imágenes, la respuesta a preguntas y el reconocimiento visual. El código, los datos y los modelos están disponibles en https://github.com/Hoar012/RAP-MLLM.
English
The development of large language models (LLMs) has significantly enhanced
the capabilities of multimodal LLMs (MLLMs) as general assistants. However,
lack of user-specific knowledge still restricts their application in human's
daily life. In this paper, we introduce the Retrieval Augmented Personalization
(RAP) framework for MLLMs' personalization. Starting from a general MLLM, we
turn it into a personalized assistant in three steps. (a) Remember: We design a
key-value database to store user-related information, e.g., user's name, avatar
and other attributes. (b) Retrieve: When the user initiates a conversation, RAP
will retrieve relevant information from the database using a multimodal
retriever. (c) Generate: The input query and retrieved concepts' information
are fed into MLLMs to generate personalized, knowledge-augmented responses.
Unlike previous methods, RAP allows real-time concept editing via updating the
external database. To further improve generation quality and alignment with
user-specific information, we design a pipeline for data collection and create
a specialized dataset for personalized training of MLLMs. Based on the dataset,
we train a series of MLLMs as personalized multimodal assistants. By
pretraining on large-scale dataset, RAP-MLLMs can generalize to infinite visual
concepts without additional finetuning. Our models demonstrate outstanding
flexibility and generation quality across a variety of tasks, such as
personalized image captioning, question answering and visual recognition. The
code, data and models are available at https://github.com/Hoar012/RAP-MLLM.Summary
AI-Generated Summary