ChatPaper.aiChatPaper

Персонализированные мультимодальные модели больших языков: обзор

Personalized Multimodal Large Language Models: A Survey

December 3, 2024
Авторы: Junda Wu, Hanjia Lyu, Yu Xia, Zhehao Zhang, Joe Barrow, Ishita Kumar, Mehrnoosh Mirtaheri, Hongjie Chen, Ryan A. Rossi, Franck Dernoncourt, Tong Yu, Ruiyi Zhang, Jiuxiang Gu, Nesreen K. Ahmed, Yu Wang, Xiang Chen, Hanieh Deilamsalehy, Namyong Park, Sungchul Kim, Huanrui Yang, Subrata Mitra, Zhengmian Hu, Nedim Lipka, Dang Nguyen, Yue Zhao, Jiebo Luo, Julian McAuley
cs.AI

Аннотация

Многомодельные крупные языковые модели (MLLM) становятся все более важными благодаря своим передовым характеристикам и способности интегрировать несколько модальностей данных, таких как текст, изображения и звук, для выполнения сложных задач с высокой точностью. В данной статье представлен обширный обзор персонализированных многомодельных крупных языковых моделей, сосредоточенный на их архитектуре, методах обучения и применениях. Мы предлагаем интуитивную таксономию для классификации техник, используемых для персонализации MLLM для отдельных пользователей, и обсуждаем эти техники соответственно. Кроме того, мы обсуждаем, как такие техники могут быть объединены или адаптированы при необходимости, выделяя их преимущества и основные принципы. Мы также предоставляем краткое изложение задач персонализации, исследуемых в существующих исследованиях, вместе с общеиспользуемыми метриками оценки. Кроме того, мы подводим итоги наборам данных, которые полезны для оценки персонализированных MLLM. Наконец, мы обрисовываем основные открытые проблемы. Целью данного обзора является служить ценным ресурсом для исследователей и практиков, стремящихся понять и продвигать развитие персонализированных многомодельных крупных языковых моделей.
English
Multimodal Large Language Models (MLLMs) have become increasingly important due to their state-of-the-art performance and ability to integrate multiple data modalities, such as text, images, and audio, to perform complex tasks with high accuracy. This paper presents a comprehensive survey on personalized multimodal large language models, focusing on their architecture, training methods, and applications. We propose an intuitive taxonomy for categorizing the techniques used to personalize MLLMs to individual users, and discuss the techniques accordingly. Furthermore, we discuss how such techniques can be combined or adapted when appropriate, highlighting their advantages and underlying rationale. We also provide a succinct summary of personalization tasks investigated in existing research, along with the evaluation metrics commonly used. Additionally, we summarize the datasets that are useful for benchmarking personalized MLLMs. Finally, we outline critical open challenges. This survey aims to serve as a valuable resource for researchers and practitioners seeking to understand and advance the development of personalized multimodal large language models.

Summary

AI-Generated Summary

PDF142December 6, 2024