TinyGPT-V: Effizientes multimodales großes Sprachmodell durch kleine Backbones
TinyGPT-V: Efficient Multimodal Large Language Model via Small Backbones
December 28, 2023
Autoren: Zhengqing Yuan, Zhaoxu Li, Lichao Sun
cs.AI
Zusammenfassung
Im Zeitalter des fortgeschrittenen Multimodalen Lernens haben multimodale große Sprachmodelle (MLLMs) wie GPT-4V bemerkenswerte Fortschritte bei der Verbindung von Sprache und visuellen Elementen erzielt. Die geschlossene Natur der Quellcodes und der erhebliche Rechenbedarf stellen jedoch erhebliche Herausforderungen für die universelle Nutzung und Modifikation dar. Hier kommen Open-Source-MLLMs wie LLaVA und MiniGPT-4 ins Spiel, die bahnbrechende Erfolge bei verschiedenen Aufgaben vorweisen können. Trotz dieser Erfolge bleibt die Recheneffizienz ein ungelöstes Problem, da diese Modelle, wie LLaVA-v1.5-13B, erhebliche Ressourcen benötigen. Um diese Probleme anzugehen, stellen wir TinyGPT-V vor, ein neues Modell, das beeindruckende Leistung mit alltäglicher Rechenkapazität vereint. Es zeichnet sich dadurch aus, dass es lediglich eine 24G GPU für das Training und eine 8G GPU oder CPU für die Inferenz benötigt. Basierend auf Phi-2 kombiniert TinyGPT-V ein effektives Sprachgerüst mit vortrainierten Vision-Modulen von BLIP-2 oder CLIP. Die 2,8 Milliarden Parameter von TinyGPT-V können einem einzigartigen Quantisierungsprozess unterzogen werden, der sich für die lokale Bereitstellung und Inferenzaufgaben auf verschiedenen Geräten mit 8G eignet. Unsere Arbeit fördert weitere Entwicklungen bei der Gestaltung von kosteneffizienten, effizienten und leistungsstarken MLLMs und erweitert deren Anwendbarkeit in einer Vielzahl von realen Szenarien. Darüber hinaus schlägt dieses Papier ein neues Paradigma für Multimodale Große Sprachmodelle über kleine Gerüste vor. Unser Code und die Trainingsgewichte sind unter:
https://github.com/DLYuanGod/TinyGPT-V und
https://huggingface.co/Tyrannosaurus/TinyGPT-V verfügbar.
English
In the era of advanced multimodel learning, multimodal large language models
(MLLMs) such as GPT-4V have made remarkable strides towards bridging language
and visual elements. However, the closed-source nature and considerable
computational demand present notable challenges for universal usage and
modifications. This is where open-source MLLMs like LLaVA and MiniGPT-4 come
in, presenting groundbreaking achievements across tasks. Despite these
accomplishments, computational efficiency remains an unresolved issue, as these
models, like LLaVA-v1.5-13B, require substantial resources. Addressing these
issues, we introduce TinyGPT-V, a new-wave model marrying impressive
performance with commonplace computational capacity. It stands out by requiring
merely a 24G GPU for training and an 8G GPU or CPU for inference. Built upon
Phi-2, TinyGPT-V couples an effective language backbone with pre-trained vision
modules from BLIP-2 or CLIP. TinyGPT-V's 2.8B parameters can undergo a unique
quantisation process, suitable for local deployment and inference tasks on 8G
various devices. Our work fosters further developments for designing
cost-effective, efficient, and high-performing MLLMs, expanding their
applicability in a broad array of real-world scenarios. Furthermore this paper
proposed a new paradigm of Multimodal Large Language Model via small backbones.
Our code and training weights are placed at:
https://github.com/DLYuanGod/TinyGPT-V and
https://huggingface.co/Tyrannosaurus/TinyGPT-V respectively.