ChatPaper.aiChatPaper

MM-LLMs: Aktuelle Fortschritte bei multimodalen großen Sprachmodellen

MM-LLMs: Recent Advances in MultiModal Large Language Models

January 24, 2024
Autoren: Duzhen Zhang, Yahan Yu, Chenxing Li, Jiahua Dong, Dan Su, Chenhui Chu, Dong Yu
cs.AI

Zusammenfassung

Im vergangenen Jahr haben Multimodale Große Sprachmodelle (MM-LLMs) erhebliche Fortschritte gemacht, indem sie Standard-LLMs durch kosteneffiziente Trainingsstrategien erweitert haben, um multimodale Eingaben oder Ausgaben zu unterstützen. Die daraus resultierenden Modelle bewahren nicht nur die inhärenten Fähigkeiten des Schlussfolgerns und Entscheidens von LLMs, sondern ermöglichen auch eine Vielzahl von multimodalen Aufgaben. In diesem Artikel präsentieren wir eine umfassende Übersicht, die darauf abzielt, die weitere Forschung zu MM-LLMs zu fördern. Insbesondere skizzieren wir zunächst allgemeine Designformulierungen für die Modellarchitektur und den Trainingspipeline. Anschließend bieten wir kurze Einführungen zu 26 bestehenden MM-LLMs, die jeweils durch ihre spezifischen Formulierungen charakterisiert sind. Zudem überprüfen wir die Leistung von MM-LLMs auf gängigen Benchmarks und fassen wichtige Trainingsrezepte zusammen, um die Wirksamkeit von MM-LLMs zu steigern. Schließlich erkunden wir vielversprechende Richtungen für MM-LLMs und betreiben gleichzeitig eine Echtzeit-Website, um die neuesten Entwicklungen auf diesem Gebiet zu verfolgen. Wir hoffen, dass diese Übersicht zur fortlaufenden Weiterentwicklung des MM-LLMs-Bereichs beiträgt.
English
In the past year, MultiModal Large Language Models (MM-LLMs) have undergone substantial advancements, augmenting off-the-shelf LLMs to support MM inputs or outputs via cost-effective training strategies. The resulting models not only preserve the inherent reasoning and decision-making capabilities of LLMs but also empower a diverse range of MM tasks. In this paper, we provide a comprehensive survey aimed at facilitating further research of MM-LLMs. Specifically, we first outline general design formulations for model architecture and training pipeline. Subsequently, we provide brief introductions of 26 existing MM-LLMs, each characterized by its specific formulations. Additionally, we review the performance of MM-LLMs on mainstream benchmarks and summarize key training recipes to enhance the potency of MM-LLMs. Lastly, we explore promising directions for MM-LLMs while concurrently maintaining a real-time tracking website for the latest developments in the field. We hope that this survey contributes to the ongoing advancement of the MM-LLMs domain.
PDF495December 15, 2024