Запоминание, извлечение и генерация: понимание бесконечных визуальных концепций как ваш персонализированный помощник
Remember, Retrieve and Generate: Understanding Infinite Visual Concepts as Your Personalized Assistant
October 17, 2024
Авторы: Haoran Hao, Jiaming Han, Changsheng Li, Yu-Feng Li, Xiangyu Yue
cs.AI
Аннотация
Разработка больших языковых моделей (LLM) значительно улучшила возможности мультимодальных LLM (MLLM) в качестве общих помощников. Однако отсутствие знаний, специфичных для пользователя, по-прежнему ограничивает их применение в повседневной жизни человека. В данной статье мы представляем фреймворк Retrieval Augmented Personalization (RAP) для персонализации MLLM. Начиная с общего MLLM, мы превращаем его в персонализированного помощника в три этапа. (a) Remember: Мы разрабатываем базу данных ключ-значение для хранения информации, связанной с пользователем, например, имя пользователя, аватар и другие атрибуты. (b) Retrieve: Когда пользователь начинает разговор, RAP извлечет соответствующую информацию из базы данных с помощью мультимодального извлекателя. (c) Generate: Входной запрос и информация, извлеченная из понятий, подаются в MLLM для генерации персонализированных, знанием насыщенных ответов. В отличие от предыдущих методов, RAP позволяет редактировать концепции в реальном времени путем обновления внешней базы данных. Для дальнейшего улучшения качества генерации и соответствия информации, специфичной для пользователя, мы разрабатываем конвейер для сбора данных и создаем специализированный набор данных для персонализированного обучения MLLM. На основе этого набора данных мы обучаем серию MLLM в качестве персонализированных мультимодальных помощников. Предварительное обучение на масштабном наборе данных позволяет RAP-MLLM обобщать бесконечные визуальные концепции без дополнительной донастройки. Наши модели демонстрируют выдающуюся гибкость и качество генерации в различных задачах, таких как персонализированное описание изображений, вопросно-ответные системы и визуальное распознавание. Код, данные и модели доступны по адресу https://github.com/Hoar012/RAP-MLLM.
English
The development of large language models (LLMs) has significantly enhanced
the capabilities of multimodal LLMs (MLLMs) as general assistants. However,
lack of user-specific knowledge still restricts their application in human's
daily life. In this paper, we introduce the Retrieval Augmented Personalization
(RAP) framework for MLLMs' personalization. Starting from a general MLLM, we
turn it into a personalized assistant in three steps. (a) Remember: We design a
key-value database to store user-related information, e.g., user's name, avatar
and other attributes. (b) Retrieve: When the user initiates a conversation, RAP
will retrieve relevant information from the database using a multimodal
retriever. (c) Generate: The input query and retrieved concepts' information
are fed into MLLMs to generate personalized, knowledge-augmented responses.
Unlike previous methods, RAP allows real-time concept editing via updating the
external database. To further improve generation quality and alignment with
user-specific information, we design a pipeline for data collection and create
a specialized dataset for personalized training of MLLMs. Based on the dataset,
we train a series of MLLMs as personalized multimodal assistants. By
pretraining on large-scale dataset, RAP-MLLMs can generalize to infinite visual
concepts without additional finetuning. Our models demonstrate outstanding
flexibility and generation quality across a variety of tasks, such as
personalized image captioning, question answering and visual recognition. The
code, data and models are available at https://github.com/Hoar012/RAP-MLLM.Summary
AI-Generated Summary