ChatPaper.aiChatPaper

Personalisierte multimodale große Sprachmodelle: Eine Übersicht

Personalized Multimodal Large Language Models: A Survey

December 3, 2024
Autoren: Junda Wu, Hanjia Lyu, Yu Xia, Zhehao Zhang, Joe Barrow, Ishita Kumar, Mehrnoosh Mirtaheri, Hongjie Chen, Ryan A. Rossi, Franck Dernoncourt, Tong Yu, Ruiyi Zhang, Jiuxiang Gu, Nesreen K. Ahmed, Yu Wang, Xiang Chen, Hanieh Deilamsalehy, Namyong Park, Sungchul Kim, Huanrui Yang, Subrata Mitra, Zhengmian Hu, Nedim Lipka, Dang Nguyen, Yue Zhao, Jiebo Luo, Julian McAuley
cs.AI

Zusammenfassung

Multimodale große Sprachmodelle (MLLMs) sind aufgrund ihrer erstklassigen Leistung und der Fähigkeit, mehrere Datenmodalitäten wie Text, Bilder und Audio zu integrieren, um komplexe Aufgaben mit hoher Genauigkeit auszuführen, zunehmend wichtig geworden. Dieser Artikel präsentiert eine umfassende Untersuchung personalisierter multimodaler großer Sprachmodelle, wobei der Fokus auf deren Architektur, Trainingsmethoden und Anwendungen liegt. Wir schlagen eine intuitive Taxonomie zur Kategorisierung der Techniken vor, die zur Personalisierung von MLLMs für individuelle Benutzer verwendet werden, und diskutieren die Techniken entsprechend. Darüber hinaus erörtern wir, wie solche Techniken kombiniert oder angepasst werden können, wobei ihre Vorteile und zugrunde liegende Begründung hervorgehoben werden. Wir bieten auch eine prägnante Zusammenfassung der Personalisierungsaufgaben, die in bestehenden Forschungen untersucht wurden, sowie der üblicherweise verwendeten Bewertungsmetriken. Darüber hinaus fassen wir die Datensätze zusammen, die nützlich sind, um personalisierte MLLMs zu benchmarken. Abschließend skizzieren wir wichtige offene Herausforderungen. Diese Untersuchung zielt darauf ab, ein wertvolles Ressourcenmaterial für Forscher und Praktiker zu sein, die das Verständnis und die Weiterentwicklung personalisierter multimodaler großer Sprachmodelle vorantreiben möchten.
English
Multimodal Large Language Models (MLLMs) have become increasingly important due to their state-of-the-art performance and ability to integrate multiple data modalities, such as text, images, and audio, to perform complex tasks with high accuracy. This paper presents a comprehensive survey on personalized multimodal large language models, focusing on their architecture, training methods, and applications. We propose an intuitive taxonomy for categorizing the techniques used to personalize MLLMs to individual users, and discuss the techniques accordingly. Furthermore, we discuss how such techniques can be combined or adapted when appropriate, highlighting their advantages and underlying rationale. We also provide a succinct summary of personalization tasks investigated in existing research, along with the evaluation metrics commonly used. Additionally, we summarize the datasets that are useful for benchmarking personalized MLLMs. Finally, we outline critical open challenges. This survey aims to serve as a valuable resource for researchers and practitioners seeking to understand and advance the development of personalized multimodal large language models.

Summary

AI-Generated Summary

PDF142December 6, 2024