Recordar, Recuperar e Gerar: Compreendendo Conceitos Visuais Infinitos como seu Assistente Personalizado

Resumo

O desenvolvimento de grandes modelos de linguagem (LLMs) aprimorou significativamente as capacidades dos modelos de linguagem multimodais (MLLMs) como assistentes gerais. No entanto, a falta de conhecimento específico do usuário ainda restringe sua aplicação na vida diária das pessoas. Neste artigo, apresentamos o framework de Personalização com Recuperação Aumentada (RAP) para personalização de MLLMs. Partindo de um MLLM geral, transformamo-lo em um assistente personalizado em três etapas. (a) Lembrar: Projetamos um banco de dados chave-valor para armazenar informações relacionadas ao usuário, como nome do usuário, avatar e outros atributos. (b) Recuperar: Quando o usuário inicia uma conversa, o RAP recuperará informações relevantes do banco de dados usando um recuperador multimodal. (c) Gerar: A consulta de entrada e as informações dos conceitos recuperados são inseridas nos MLLMs para gerar respostas personalizadas, enriquecidas com conhecimento. Ao contrário de métodos anteriores, o RAP permite a edição de conceitos em tempo real por meio da atualização do banco de dados externo. Para melhorar ainda mais a qualidade da geração e a alinhamento com informações específicas do usuário, projetamos um pipeline para coleta de dados e criamos um conjunto de dados especializado para treinamento personalizado de MLLMs. Com base no conjunto de dados, treinamos uma série de MLLMs como assistentes multimodais personalizados. Ao pré-treinar em um conjunto de dados em grande escala, os RAP-MLLMs podem generalizar para conceitos visuais infinitos sem ajustes adicionais. Nossos modelos demonstram flexibilidade excepcional e qualidade de geração em uma variedade de tarefas, como legenda de imagens personalizada, resposta a perguntas e reconhecimento visual. O código, dados e modelos estão disponíveis em https://github.com/Hoar012/RAP-MLLM.

English

The development of large language models (LLMs) has significantly enhanced the capabilities of multimodal LLMs (MLLMs) as general assistants. However, lack of user-specific knowledge still restricts their application in human's daily life. In this paper, we introduce the Retrieval Augmented Personalization (RAP) framework for MLLMs' personalization. Starting from a general MLLM, we turn it into a personalized assistant in three steps. (a) Remember: We design a key-value database to store user-related information, e.g., user's name, avatar and other attributes. (b) Retrieve: When the user initiates a conversation, RAP will retrieve relevant information from the database using a multimodal retriever. (c) Generate: The input query and retrieved concepts' information are fed into MLLMs to generate personalized, knowledge-augmented responses. Unlike previous methods, RAP allows real-time concept editing via updating the external database. To further improve generation quality and alignment with user-specific information, we design a pipeline for data collection and create a specialized dataset for personalized training of MLLMs. Based on the dataset, we train a series of MLLMs as personalized multimodal assistants. By pretraining on large-scale dataset, RAP-MLLMs can generalize to infinite visual concepts without additional finetuning. Our models demonstrate outstanding flexibility and generation quality across a variety of tasks, such as personalized image captioning, question answering and visual recognition. The code, data and models are available at https://github.com/Hoar012/RAP-MLLM.

Recordar, Recuperar e Gerar: Compreendendo Conceitos Visuais Infinitos como seu Assistente Personalizado

Remember, Retrieve and Generate: Understanding Infinite Visual Concepts as Your Personalized Assistant

Resumo

Support