Personalisierte multimodale große Sprachmodelle: Eine Übersicht
Personalized Multimodal Large Language Models: A Survey
December 3, 2024
Autoren: Junda Wu, Hanjia Lyu, Yu Xia, Zhehao Zhang, Joe Barrow, Ishita Kumar, Mehrnoosh Mirtaheri, Hongjie Chen, Ryan A. Rossi, Franck Dernoncourt, Tong Yu, Ruiyi Zhang, Jiuxiang Gu, Nesreen K. Ahmed, Yu Wang, Xiang Chen, Hanieh Deilamsalehy, Namyong Park, Sungchul Kim, Huanrui Yang, Subrata Mitra, Zhengmian Hu, Nedim Lipka, Dang Nguyen, Yue Zhao, Jiebo Luo, Julian McAuley
cs.AI
Zusammenfassung
Multimodale große Sprachmodelle (MLLMs) sind aufgrund ihrer erstklassigen Leistung und der Fähigkeit, mehrere Datenmodalitäten wie Text, Bilder und Audio zu integrieren, um komplexe Aufgaben mit hoher Genauigkeit auszuführen, zunehmend wichtig geworden. Dieser Artikel präsentiert eine umfassende Untersuchung personalisierter multimodaler großer Sprachmodelle, wobei der Fokus auf deren Architektur, Trainingsmethoden und Anwendungen liegt. Wir schlagen eine intuitive Taxonomie zur Kategorisierung der Techniken vor, die zur Personalisierung von MLLMs für individuelle Benutzer verwendet werden, und diskutieren die Techniken entsprechend. Darüber hinaus erörtern wir, wie solche Techniken kombiniert oder angepasst werden können, wobei ihre Vorteile und zugrunde liegende Begründung hervorgehoben werden. Wir bieten auch eine prägnante Zusammenfassung der Personalisierungsaufgaben, die in bestehenden Forschungen untersucht wurden, sowie der üblicherweise verwendeten Bewertungsmetriken. Darüber hinaus fassen wir die Datensätze zusammen, die nützlich sind, um personalisierte MLLMs zu benchmarken. Abschließend skizzieren wir wichtige offene Herausforderungen. Diese Untersuchung zielt darauf ab, ein wertvolles Ressourcenmaterial für Forscher und Praktiker zu sein, die das Verständnis und die Weiterentwicklung personalisierter multimodaler großer Sprachmodelle vorantreiben möchten.
English
Multimodal Large Language Models (MLLMs) have become increasingly important
due to their state-of-the-art performance and ability to integrate multiple
data modalities, such as text, images, and audio, to perform complex tasks with
high accuracy. This paper presents a comprehensive survey on personalized
multimodal large language models, focusing on their architecture, training
methods, and applications. We propose an intuitive taxonomy for categorizing
the techniques used to personalize MLLMs to individual users, and discuss the
techniques accordingly. Furthermore, we discuss how such techniques can be
combined or adapted when appropriate, highlighting their advantages and
underlying rationale. We also provide a succinct summary of personalization
tasks investigated in existing research, along with the evaluation metrics
commonly used. Additionally, we summarize the datasets that are useful for
benchmarking personalized MLLMs. Finally, we outline critical open challenges.
This survey aims to serve as a valuable resource for researchers and
practitioners seeking to understand and advance the development of personalized
multimodal large language models.Summary
AI-Generated Summary