TinyGPT-V: Modello Linguistico Multimodale di Grandi Dimensioni Efficiente tramite Architetture di Piccole Dimensioni
TinyGPT-V: Efficient Multimodal Large Language Model via Small Backbones
December 28, 2023
Autori: Zhengqing Yuan, Zhaoxu Li, Lichao Sun
cs.AI
Abstract
Nell'era dell'apprendimento multimodale avanzato, i modelli linguistici multimodali di grandi dimensioni (MLLMs) come GPT-4V hanno compiuto progressi significativi nel collegare elementi linguistici e visivi. Tuttavia, la natura closed-source e la considerevole richiesta computazionale presentano sfide notevoli per un utilizzo e una modifica universali. È qui che entrano in gioco MLLMs open-source come LLaVA e MiniGPT-4, che presentano risultati rivoluzionari in vari compiti. Nonostante questi successi, l'efficienza computazionale rimane un problema irrisolto, poiché questi modelli, come LLaVA-v1.5-13B, richiedono risorse sostanziali. Affrontando queste problematiche, introduciamo TinyGPT-V, un modello di nuova generazione che unisce prestazioni impressionanti a una capacità computazionale comune. Si distingue per richiedere solo una GPU da 24G per l'addestramento e una GPU da 8G o una CPU per l'inferenza. Basato su Phi-2, TinyGPT-V combina un efficace backbone linguistico con moduli visivi pre-addestrati da BLIP-2 o CLIP. I 2,8 miliardi di parametri di TinyGPT-V possono subire un processo di quantizzazione unico, adatto per il deployment locale e compiti di inferenza su vari dispositivi con 8G di memoria. Il nostro lavoro promuove ulteriori sviluppi nella progettazione di MLLMs economici, efficienti e ad alte prestazioni, ampliandone l'applicabilità in un'ampia gamma di scenari reali. Inoltre, questo articolo propone un nuovo paradigma di Modelli Linguistici Multimodali di Grandi Dimensioni attraverso backbone di piccole dimensioni. Il nostro codice e i pesi di addestramento sono disponibili su: https://github.com/DLYuanGod/TinyGPT-V e https://huggingface.co/Tyrannosaurus/TinyGPT-V rispettivamente.
English
In the era of advanced multimodel learning, multimodal large language models
(MLLMs) such as GPT-4V have made remarkable strides towards bridging language
and visual elements. However, the closed-source nature and considerable
computational demand present notable challenges for universal usage and
modifications. This is where open-source MLLMs like LLaVA and MiniGPT-4 come
in, presenting groundbreaking achievements across tasks. Despite these
accomplishments, computational efficiency remains an unresolved issue, as these
models, like LLaVA-v1.5-13B, require substantial resources. Addressing these
issues, we introduce TinyGPT-V, a new-wave model marrying impressive
performance with commonplace computational capacity. It stands out by requiring
merely a 24G GPU for training and an 8G GPU or CPU for inference. Built upon
Phi-2, TinyGPT-V couples an effective language backbone with pre-trained vision
modules from BLIP-2 or CLIP. TinyGPT-V's 2.8B parameters can undergo a unique
quantisation process, suitable for local deployment and inference tasks on 8G
various devices. Our work fosters further developments for designing
cost-effective, efficient, and high-performing MLLMs, expanding their
applicability in a broad array of real-world scenarios. Furthermore this paper
proposed a new paradigm of Multimodal Large Language Model via small backbones.
Our code and training weights are placed at:
https://github.com/DLYuanGod/TinyGPT-V and
https://huggingface.co/Tyrannosaurus/TinyGPT-V respectively.