Recordar, Recuperar e Gerar: Compreendendo Conceitos Visuais Infinitos como seu Assistente Personalizado
Remember, Retrieve and Generate: Understanding Infinite Visual Concepts as Your Personalized Assistant
October 17, 2024
Autores: Haoran Hao, Jiaming Han, Changsheng Li, Yu-Feng Li, Xiangyu Yue
cs.AI
Resumo
O desenvolvimento de grandes modelos de linguagem (LLMs) aprimorou significativamente as capacidades dos modelos de linguagem multimodais (MLLMs) como assistentes gerais. No entanto, a falta de conhecimento específico do usuário ainda restringe sua aplicação na vida diária das pessoas. Neste artigo, apresentamos o framework de Personalização com Recuperação Aumentada (RAP) para personalização de MLLMs. Partindo de um MLLM geral, transformamo-lo em um assistente personalizado em três etapas. (a) Lembrar: Projetamos um banco de dados chave-valor para armazenar informações relacionadas ao usuário, como nome do usuário, avatar e outros atributos. (b) Recuperar: Quando o usuário inicia uma conversa, o RAP recuperará informações relevantes do banco de dados usando um recuperador multimodal. (c) Gerar: A consulta de entrada e as informações dos conceitos recuperados são inseridas nos MLLMs para gerar respostas personalizadas, enriquecidas com conhecimento. Ao contrário de métodos anteriores, o RAP permite a edição de conceitos em tempo real por meio da atualização do banco de dados externo. Para melhorar ainda mais a qualidade da geração e a alinhamento com informações específicas do usuário, projetamos um pipeline para coleta de dados e criamos um conjunto de dados especializado para treinamento personalizado de MLLMs. Com base no conjunto de dados, treinamos uma série de MLLMs como assistentes multimodais personalizados. Ao pré-treinar em um conjunto de dados em grande escala, os RAP-MLLMs podem generalizar para conceitos visuais infinitos sem ajustes adicionais. Nossos modelos demonstram flexibilidade excepcional e qualidade de geração em uma variedade de tarefas, como legenda de imagens personalizada, resposta a perguntas e reconhecimento visual. O código, dados e modelos estão disponíveis em https://github.com/Hoar012/RAP-MLLM.
English
The development of large language models (LLMs) has significantly enhanced
the capabilities of multimodal LLMs (MLLMs) as general assistants. However,
lack of user-specific knowledge still restricts their application in human's
daily life. In this paper, we introduce the Retrieval Augmented Personalization
(RAP) framework for MLLMs' personalization. Starting from a general MLLM, we
turn it into a personalized assistant in three steps. (a) Remember: We design a
key-value database to store user-related information, e.g., user's name, avatar
and other attributes. (b) Retrieve: When the user initiates a conversation, RAP
will retrieve relevant information from the database using a multimodal
retriever. (c) Generate: The input query and retrieved concepts' information
are fed into MLLMs to generate personalized, knowledge-augmented responses.
Unlike previous methods, RAP allows real-time concept editing via updating the
external database. To further improve generation quality and alignment with
user-specific information, we design a pipeline for data collection and create
a specialized dataset for personalized training of MLLMs. Based on the dataset,
we train a series of MLLMs as personalized multimodal assistants. By
pretraining on large-scale dataset, RAP-MLLMs can generalize to infinite visual
concepts without additional finetuning. Our models demonstrate outstanding
flexibility and generation quality across a variety of tasks, such as
personalized image captioning, question answering and visual recognition. The
code, data and models are available at https://github.com/Hoar012/RAP-MLLM.Summary
AI-Generated Summary