TinyGPT-V: Modello Linguistico Multimodale di Grandi Dimensioni Efficiente tramite Architetture di Piccole Dimensioni

Abstract

Nell'era dell'apprendimento multimodale avanzato, i modelli linguistici multimodali di grandi dimensioni (MLLMs) come GPT-4V hanno compiuto progressi significativi nel collegare elementi linguistici e visivi. Tuttavia, la natura closed-source e la considerevole richiesta computazionale presentano sfide notevoli per un utilizzo e una modifica universali. È qui che entrano in gioco MLLMs open-source come LLaVA e MiniGPT-4, che presentano risultati rivoluzionari in vari compiti. Nonostante questi successi, l'efficienza computazionale rimane un problema irrisolto, poiché questi modelli, come LLaVA-v1.5-13B, richiedono risorse sostanziali. Affrontando queste problematiche, introduciamo TinyGPT-V, un modello di nuova generazione che unisce prestazioni impressionanti a una capacità computazionale comune. Si distingue per richiedere solo una GPU da 24G per l'addestramento e una GPU da 8G o una CPU per l'inferenza. Basato su Phi-2, TinyGPT-V combina un efficace backbone linguistico con moduli visivi pre-addestrati da BLIP-2 o CLIP. I 2,8 miliardi di parametri di TinyGPT-V possono subire un processo di quantizzazione unico, adatto per il deployment locale e compiti di inferenza su vari dispositivi con 8G di memoria. Il nostro lavoro promuove ulteriori sviluppi nella progettazione di MLLMs economici, efficienti e ad alte prestazioni, ampliandone l'applicabilità in un'ampia gamma di scenari reali. Inoltre, questo articolo propone un nuovo paradigma di Modelli Linguistici Multimodali di Grandi Dimensioni attraverso backbone di piccole dimensioni. Il nostro codice e i pesi di addestramento sono disponibili su: https://github.com/DLYuanGod/TinyGPT-V e https://huggingface.co/Tyrannosaurus/TinyGPT-V rispettivamente.

English

In the era of advanced multimodel learning, multimodal large language models (MLLMs) such as GPT-4V have made remarkable strides towards bridging language and visual elements. However, the closed-source nature and considerable computational demand present notable challenges for universal usage and modifications. This is where open-source MLLMs like LLaVA and MiniGPT-4 come in, presenting groundbreaking achievements across tasks. Despite these accomplishments, computational efficiency remains an unresolved issue, as these models, like LLaVA-v1.5-13B, require substantial resources. Addressing these issues, we introduce TinyGPT-V, a new-wave model marrying impressive performance with commonplace computational capacity. It stands out by requiring merely a 24G GPU for training and an 8G GPU or CPU for inference. Built upon Phi-2, TinyGPT-V couples an effective language backbone with pre-trained vision modules from BLIP-2 or CLIP. TinyGPT-V's 2.8B parameters can undergo a unique quantisation process, suitable for local deployment and inference tasks on 8G various devices. Our work fosters further developments for designing cost-effective, efficient, and high-performing MLLMs, expanding their applicability in a broad array of real-world scenarios. Furthermore this paper proposed a new paradigm of Multimodal Large Language Model via small backbones. Our code and training weights are placed at: https://github.com/DLYuanGod/TinyGPT-V and https://huggingface.co/Tyrannosaurus/TinyGPT-V respectively.

TinyGPT-V: Modello Linguistico Multimodale di Grandi Dimensioni Efficiente tramite Architetture di Piccole Dimensioni

TinyGPT-V: Efficient Multimodal Large Language Model via Small Backbones

Abstract

Support