Запоминание, извлечение и генерация: понимание бесконечных визуальных концепций как ваш персонализированный помощник

Аннотация

Разработка больших языковых моделей (LLM) значительно улучшила возможности мультимодальных LLM (MLLM) в качестве общих помощников. Однако отсутствие знаний, специфичных для пользователя, по-прежнему ограничивает их применение в повседневной жизни человека. В данной статье мы представляем фреймворк Retrieval Augmented Personalization (RAP) для персонализации MLLM. Начиная с общего MLLM, мы превращаем его в персонализированного помощника в три этапа. (a) Remember: Мы разрабатываем базу данных ключ-значение для хранения информации, связанной с пользователем, например, имя пользователя, аватар и другие атрибуты. (b) Retrieve: Когда пользователь начинает разговор, RAP извлечет соответствующую информацию из базы данных с помощью мультимодального извлекателя. (c) Generate: Входной запрос и информация, извлеченная из понятий, подаются в MLLM для генерации персонализированных, знанием насыщенных ответов. В отличие от предыдущих методов, RAP позволяет редактировать концепции в реальном времени путем обновления внешней базы данных. Для дальнейшего улучшения качества генерации и соответствия информации, специфичной для пользователя, мы разрабатываем конвейер для сбора данных и создаем специализированный набор данных для персонализированного обучения MLLM. На основе этого набора данных мы обучаем серию MLLM в качестве персонализированных мультимодальных помощников. Предварительное обучение на масштабном наборе данных позволяет RAP-MLLM обобщать бесконечные визуальные концепции без дополнительной донастройки. Наши модели демонстрируют выдающуюся гибкость и качество генерации в различных задачах, таких как персонализированное описание изображений, вопросно-ответные системы и визуальное распознавание. Код, данные и модели доступны по адресу https://github.com/Hoar012/RAP-MLLM.

English

The development of large language models (LLMs) has significantly enhanced the capabilities of multimodal LLMs (MLLMs) as general assistants. However, lack of user-specific knowledge still restricts their application in human's daily life. In this paper, we introduce the Retrieval Augmented Personalization (RAP) framework for MLLMs' personalization. Starting from a general MLLM, we turn it into a personalized assistant in three steps. (a) Remember: We design a key-value database to store user-related information, e.g., user's name, avatar and other attributes. (b) Retrieve: When the user initiates a conversation, RAP will retrieve relevant information from the database using a multimodal retriever. (c) Generate: The input query and retrieved concepts' information are fed into MLLMs to generate personalized, knowledge-augmented responses. Unlike previous methods, RAP allows real-time concept editing via updating the external database. To further improve generation quality and alignment with user-specific information, we design a pipeline for data collection and create a specialized dataset for personalized training of MLLMs. Based on the dataset, we train a series of MLLMs as personalized multimodal assistants. By pretraining on large-scale dataset, RAP-MLLMs can generalize to infinite visual concepts without additional finetuning. Our models demonstrate outstanding flexibility and generation quality across a variety of tasks, such as personalized image captioning, question answering and visual recognition. The code, data and models are available at https://github.com/Hoar012/RAP-MLLM.

Запоминание, извлечение и генерация: понимание бесконечных визуальных концепций как ваш персонализированный помощник

Remember, Retrieve and Generate: Understanding Infinite Visual Concepts as Your Personalized Assistant

Аннотация

Support