ChatPaper.aiChatPaper

Ricorda, Recupera e Genera: Comprendere Concetti Visivi Infiniti come il Tuo Assistente Personale

Remember, Retrieve and Generate: Understanding Infinite Visual Concepts as Your Personalized Assistant

October 17, 2024
Autori: Haoran Hao, Jiaming Han, Changsheng Li, Yu-Feng Li, Xiangyu Yue
cs.AI

Abstract

Lo sviluppo dei grandi modelli linguistici (LLM) ha notevolmente potenziato le capacità dei modelli linguistici multimodali (MLLM) come assistenti generali. Tuttavia, la mancanza di conoscenze specifiche dell'utente limita ancora la loro applicazione nella vita quotidiana umana. In questo articolo, presentiamo il framework di Personalizzazione potenziata da Recupero (RAP) per la personalizzazione dei MLLM. Partendo da un MLLM generale, lo trasformiamo in un assistente personalizzato in tre fasi. (a) Ricorda: Progettiamo un database chiave-valore per memorizzare informazioni relative all'utente, come il nome dell'utente, l'avatar e altri attributi. (b) Recupera: Quando l'utente avvia una conversazione, RAP recupererà informazioni rilevanti dal database utilizzando un recuperatore multimodale. (c) Genera: La query di input e le informazioni sui concetti recuperati vengono alimentate nei MLLM per generare risposte personalizzate, arricchite di conoscenza. A differenza dei metodi precedenti, RAP consente la modifica in tempo reale dei concetti tramite l'aggiornamento del database esterno. Per migliorare ulteriormente la qualità della generazione e l'allineamento con le informazioni specifiche dell'utente, progettiamo un flusso di lavoro per la raccolta dati e creiamo un dataset specializzato per l'addestramento personalizzato dei MLLM. Sulla base del dataset, addestriamo una serie di MLLM come assistenti multimodali personalizzati. Attraverso il preaddestramento su un dataset su larga scala, i RAP-MLLM possono generalizzare a infiniti concetti visivi senza ulteriori raffinamenti. I nostri modelli dimostrano un'eccezionale flessibilità e qualità di generazione in una varietà di compiti, come la descrizione personalizzata di immagini, il rispondere a domande e il riconoscimento visivo. Il codice, i dati e i modelli sono disponibili su https://github.com/Hoar012/RAP-MLLM.
English
The development of large language models (LLMs) has significantly enhanced the capabilities of multimodal LLMs (MLLMs) as general assistants. However, lack of user-specific knowledge still restricts their application in human's daily life. In this paper, we introduce the Retrieval Augmented Personalization (RAP) framework for MLLMs' personalization. Starting from a general MLLM, we turn it into a personalized assistant in three steps. (a) Remember: We design a key-value database to store user-related information, e.g., user's name, avatar and other attributes. (b) Retrieve: When the user initiates a conversation, RAP will retrieve relevant information from the database using a multimodal retriever. (c) Generate: The input query and retrieved concepts' information are fed into MLLMs to generate personalized, knowledge-augmented responses. Unlike previous methods, RAP allows real-time concept editing via updating the external database. To further improve generation quality and alignment with user-specific information, we design a pipeline for data collection and create a specialized dataset for personalized training of MLLMs. Based on the dataset, we train a series of MLLMs as personalized multimodal assistants. By pretraining on large-scale dataset, RAP-MLLMs can generalize to infinite visual concepts without additional finetuning. Our models demonstrate outstanding flexibility and generation quality across a variety of tasks, such as personalized image captioning, question answering and visual recognition. The code, data and models are available at https://github.com/Hoar012/RAP-MLLM.

Summary

AI-Generated Summary

PDF92November 16, 2024