ChatPaper.aiChatPaper

TinyGPT-V: Effizientes multimodales großes Sprachmodell durch kleine Backbones

TinyGPT-V: Efficient Multimodal Large Language Model via Small Backbones

December 28, 2023
Autoren: Zhengqing Yuan, Zhaoxu Li, Lichao Sun
cs.AI

Zusammenfassung

Im Zeitalter des fortgeschrittenen Multimodalen Lernens haben multimodale große Sprachmodelle (MLLMs) wie GPT-4V bemerkenswerte Fortschritte bei der Verbindung von Sprache und visuellen Elementen erzielt. Die geschlossene Natur der Quellcodes und der erhebliche Rechenbedarf stellen jedoch erhebliche Herausforderungen für die universelle Nutzung und Modifikation dar. Hier kommen Open-Source-MLLMs wie LLaVA und MiniGPT-4 ins Spiel, die bahnbrechende Erfolge bei verschiedenen Aufgaben vorweisen können. Trotz dieser Erfolge bleibt die Recheneffizienz ein ungelöstes Problem, da diese Modelle, wie LLaVA-v1.5-13B, erhebliche Ressourcen benötigen. Um diese Probleme anzugehen, stellen wir TinyGPT-V vor, ein neues Modell, das beeindruckende Leistung mit alltäglicher Rechenkapazität vereint. Es zeichnet sich dadurch aus, dass es lediglich eine 24G GPU für das Training und eine 8G GPU oder CPU für die Inferenz benötigt. Basierend auf Phi-2 kombiniert TinyGPT-V ein effektives Sprachgerüst mit vortrainierten Vision-Modulen von BLIP-2 oder CLIP. Die 2,8 Milliarden Parameter von TinyGPT-V können einem einzigartigen Quantisierungsprozess unterzogen werden, der sich für die lokale Bereitstellung und Inferenzaufgaben auf verschiedenen Geräten mit 8G eignet. Unsere Arbeit fördert weitere Entwicklungen bei der Gestaltung von kosteneffizienten, effizienten und leistungsstarken MLLMs und erweitert deren Anwendbarkeit in einer Vielzahl von realen Szenarien. Darüber hinaus schlägt dieses Papier ein neues Paradigma für Multimodale Große Sprachmodelle über kleine Gerüste vor. Unser Code und die Trainingsgewichte sind unter: https://github.com/DLYuanGod/TinyGPT-V und https://huggingface.co/Tyrannosaurus/TinyGPT-V verfügbar.
English
In the era of advanced multimodel learning, multimodal large language models (MLLMs) such as GPT-4V have made remarkable strides towards bridging language and visual elements. However, the closed-source nature and considerable computational demand present notable challenges for universal usage and modifications. This is where open-source MLLMs like LLaVA and MiniGPT-4 come in, presenting groundbreaking achievements across tasks. Despite these accomplishments, computational efficiency remains an unresolved issue, as these models, like LLaVA-v1.5-13B, require substantial resources. Addressing these issues, we introduce TinyGPT-V, a new-wave model marrying impressive performance with commonplace computational capacity. It stands out by requiring merely a 24G GPU for training and an 8G GPU or CPU for inference. Built upon Phi-2, TinyGPT-V couples an effective language backbone with pre-trained vision modules from BLIP-2 or CLIP. TinyGPT-V's 2.8B parameters can undergo a unique quantisation process, suitable for local deployment and inference tasks on 8G various devices. Our work fosters further developments for designing cost-effective, efficient, and high-performing MLLMs, expanding their applicability in a broad array of real-world scenarios. Furthermore this paper proposed a new paradigm of Multimodal Large Language Model via small backbones. Our code and training weights are placed at: https://github.com/DLYuanGod/TinyGPT-V and https://huggingface.co/Tyrannosaurus/TinyGPT-V respectively.
PDF316December 15, 2024